Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.
Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.
Schița de curs
Fiecare sesiune durează 2 ore
Ziua-1: Sesiune -1: Prezentare generală de business a Big Data BI în guvern
- Studii de caz din NIH, DoE
- Rata de adaptare la Big Data în agenții guvernamentale și cum se aliniază operațiunile viitoare în jurul analizei predictice a Big Data
- Domeniile de aplicare pe scară largă în DoD, NSA, IRS, USDA etc.
- Interfațierea Big Data cu datele legacy
- Înțelegere basică a tehnologiilor care permit analiza predictivă
- Integrarea datelor și vizualizarea pe tablou de bord
- Gestionarea fraudei
- Generarea regulilor de afaceri/detectare a fraudei
- Detectarea și profilarea amenințărilor
- Analiza cost-benefic pentru implementarea Big Data
Ziua-1: Sesiune-2 : Introducere la Big Data-1
- Caracteristicile principale ale Big Data — volum, varietate, viteza și veracitate. Arhitectura MPP pentru volum.
- Baze de date warehouse — schema statică, seturi de date care evoluează încet
- Baze de date MPP precum Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Soluții bazate pe Hadoop — fără condiții asupra structurii setului de date.
- Pattern tipic: HDFS, MapReduce (procesare), extragere din HDFS
- Procesare batch — potrivită pentru analiză/nu interactiv
- Volum: date de streaming CEP
- Opțiuni tipice — produse CEP (de exemplu, Infostreams, Apama, MarkLogic etc)
- Mai puțin pregătite pentru producție — Storm/S4
- Baze de date NoSQL (coloane și cheie-valoare): cele mai potrivite ca adjunct analitic la warehouse/ bază de date
Ziua-1 : Sesiune -3 : Introducere la Big Data-2
Soluții NoSQL
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (ierarhic) - GT.m, Cache
- KV Store (ordonat) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tuple Store - Gigaspaces, Coord, Apache River
- Bază de date obiect - ZopeDB, DB40, Shoal
- Bază de date document - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Bază de date cu coloane lărgi - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variantele datelor: Introducere la problemele de curățare a datelor în Big Data
- RDBMS — structură/schemă statică, nu promovează mediu agil și explorator.
- NoSQL — semi-structurat, suficient de structurat pentru a stoca date fără schema exactă înainte de stocare
- Probleme de curățare a datelor
Ziua-1 : Sesiune-4 : Introducere la Big Data-3: Hadoop
- Când să alegeți Hadoop?
- STRUCTURAT - Baze de date/warehouse enterprise pot stoca massive cantități de date (cu cost), dar impun structură (nu este bun pentru explorarea activă)
- DATE SEMI-STRUCTURATE — dificil de gestionat cu soluții tradiționale (DW/DB)
- Stocarea datelor = efort ENORM și static chiar după implementare
- Pentru varietatea și volumul datelor, procesate pe hardware obișnuit — HADOOP
- Hardware commoditizat necesar pentru a crea un cluster Hadoop
Introducere la MapReduce/HDFS
- MapReduce — distribuie procesarea pe mai multe servere
- HDFS — face disponibile datele local pentru procesul de calcul (cu redundanță)
- Date — pot fi nestructurate/senzare (în contrast cu RDBMS)
- Responsabilitatea dezvoltatorului de a interpreta datele
- Programarea MapReduce = lucrul cu Java (avantaje/disavantaje), încărcarea manuală a datelor în HDFS
Ziua-2: Sesiune-1: Ecosystem Big Data - Construirea ETL Big Data: universul instrumentelor Big Data - care să folosească și când?
- Hadoop vs. alte soluții NoSQL
- Pentru acces interactiv, aleatoriu la date
- Hbase (bază de date orientată pe coloane) în cadrul Hadoop
- Acces aleatoriu la date, dar cu restricții impuse (max 1 PB)
- Nu este bun pentru analize ad-hoc, potrivit pentru logging, numărare, time-series
- Sqoop - Import din baze de date în Hive sau HDFS (acces JDBC/ODBC)
- Flume — fluxul datelor (de exemplu, datele jurnal) în HDFS
Ziua-2: Sesiune-2: Sistem de gestionare Big Data
- Părți mobile, noduri de calcul start/stop: ZooKeeper - pentru configurare/coordonare/servicii de nume
- Pipeline/workflow complex: Oozie — gestionarea workflow-ului, dependențelor, lanțatul secvențial
- Implementare, configurare, management cluster, upgrade etc (admin sistem) : Ambari
- În cloud: Whirr
Ziua-2: Sesiune-3: Analiza predictivă în Inteligenta de Business -1: Tehnicii fundamentale și BI bazat pe machine learning:
- Introducere la machine learning
- Învățarea tehnicilor de clasificare
- Predictia Bayesiană — pregătirea fișierului de instruire
- Support Vector Machine
- KNN p-Tree Algebra & mining vertical
- Rețele neurale
- Problema variabilei mari a Big Data — Random forest (RF)
- Problema automatizării Big Data — Multi-model ensemble RF
- Automatizare prin Soft10-M
- Instrument de analiză a textului - Treeminer
- Învățarea agilă
- Învățarea bazată pe agenți
- Învățarea distribuită
- Introducere la instrumente open source pentru analiza predictivă: R, Rapidminer, Mahut
Ziua-2: Sesiune-4 Ecosystem de analiză predictivă-2: Probleme comune de analiză predictivă în guvern
- Analiza de insight
- Analiza vizualizării
- Analiza predictivă structurată
- Analiza predictivă nestructurată
- Profilarea amenințărilor/fraudei/vendor
- Motor de recomandare
- Detectarea modelului
- Descoperirea regulilor/scenario-urilor — eșec, frauda, optimizare
- Descoperirea cauzei de bază
- Analiza sentimentului
- Analiza CRM
- Analiza rețelei
- Analiza textului
- Revizuire asistată de tehnologie
- Analiza fraudei
- Analiza în timp real
Ziua-3: Sesiunea-1 : Analiză rapidă și scalabilă peste Hadoop
- De ce algoritmul de analiză comun eșuează în Hadoop/HDFS
- Apache Hama — pentru calcul distribuit bulk synchronous
- Apache SPARK — pentru computere cluster pentru analiză în timp real
- Laboratorul de grafică CMU2 — abordare asincronă bazată pe grafuri la calcul distribuit
- Abordarea p-Algebra KNN din Treeminer pentru reducerea costului hardware
Ziua-3: Sesiunea-2: Instrumente de eDiscovery și forensică
- eDiscovery peste Big Data vs. date legacy — o comparație a costurilor și performanței
- Codificare predictivă și revizuire asistată de tehnologie (TAR)
- Demo live a unui produs TAR (vMiner) pentru a înțelege cum funcționează TAR pentru descoperirea mai rapidă
- Indexare rapidă prin HDFS — viteza datelor
- NLP sau procesarea limbajului natural — diverse tehnici și produse open source
- eDiscovery în limbi străine — tehnologie pentru procesarea limbilor străine
Ziua-3: Sesiunea 3: BI Big Data pentru securitatea cibernetică — Înțelegerea viziunii complete de 360 grade din colectarea rapidă a datelor până la identificarea amenințărilor
- Înțelegerea analizei de securitate de bază — suprafața de atac, configurarea incorectă a securității, apărarea gazdei
- Infrastructura de rețea/large datapipe / ETL pentru analiză în timp real
- Prescriptiv vs predictiv — reguli fixe bazate pe metadate vs. descoperire automată a regulilor de amenințare
Ziua-3: Sesiunea 4: Big Data în USDA: Aplicații în agricultură
- Introducere la IoT (Internet of Things) pentru agricultură — date Big Data și control bazat pe senzori
- Introducere la imaginarea satelitară și aplicațiile sale în agricultură
- Integrarea datelor de senzor și imagini pentru fertilitatea solului, recomandări de culturare și previziuni
- Asigurări agricole și Big Data
- Previzionarea pierderilor de cultură
Ziua-4: Sesiunea-1: BI pentru prevenirea fraudei din Big Data în guvern - Analiza fraudei:
- Clasificarea de bază a analizei fraudei — bazată pe reguli vs. analiză predictivă
- Machine learning supravegherat vs. nesupravegherat pentru detectarea modelului de fraudă
- Fraudă a vendor-ilor/pretinderea prețurilor pentru proiecte
- Fraudă Medicare și Medicaid — tehnici de detectare a fraudei pentru procesarea declarațiilor
- Fraude la rambursarea călătoriilor
- Fraudă de restituire IRS
- Vom oferi studii de caz și demo live oriunde datele sunt disponibile.
Ziua-4: Sesiunea-2: Analiza socială a mass-media - Colectarea și analiza informațiilor
- API ETL Big Data pentru extragerea datelor de la mass-media
- Text, imagine, metadate și video
- Analiza sentimentului din fluxul de mass-media
- Filtrarea contextuală și non-contextuală a fluxului de mass-media
- Tabloul de bord social pentru integrarea diverselor canale de mass-media
- Profilare automată a profilurilor sociale
- Vom oferi demo live pentru fiecare analiză prin instrumentul Treeminer.
Ziua-4: Sesiunea-3: Analiza Big Data în procesarea imaginilor și fluxurile video
- Tehnici de stocare a imaginilor în Big Data — soluții de stocare pentru date care depășesc petabytes
- LTFS și LTO
- GPFS-LTFS (soluție stratificată de stocare pentru imagini Big Data)
- Fundamentele analizei imaginilor
- Recunoașterea obiectelor
- Segmentarea imaginii
- Urmarirea mișcării
- Reconstrucția imagini 3-D
Ziua-4: Sesiunea-4: Aplicații Big Data în NIH:
- Domeniile emergente ale bioinformaticii
- Meta-genomica și probleme de mining Big Data
- Analiza predictivă Big Data pentru farmacogenomica, metabolomica și proteomica
- Big Data în procesul genomic descendent
- Aplicații ale analizei predictive Big Data în sănătatea publică
Tabloul de bord Big Data pentru acces rapid la date diverse și afișare:
- Integrarea platformei existente de aplicații cu tabloul de bord Big Data
- Gestionarea Big Data
- Studiu de caz al tabloului de bord Big Data: Tableau și Pentaho
- Utilizarea aplicației Big Data pentru a oferi servicii bazate pe locație în guvern
- Sistem de urmărire și gestionare
Ziua-5: Sesiunea-1: Cum justifica implementarea BI Big Data într-o organizație:
- Definirea ROI pentru implementarea Big Data
- Studii de caz pentru economisirea timpului analistilor la colectarea și pregătirea datelor — creșterea productivității
- Studii de caz ale veniturilor generate prin economisirea costului bazelor de date licențiate
- Venituri generate din serviciile bazate pe locație
- Economisiri prin prevenirea fraudei
- O abordare integrată cu tablouri de calcul pentru a calcula aproximativ cheltuielile vs. venituri/gășiri din implementarea Big Data.
Ziua-5: Sesiunea-2: Procedura paş-n-pas pentru înlocuirea sistemului legacy cu un sistem Big Data:
- Înțelegerea practică a căii de migrație Big Data
- Ce informații importante sunt necesare înainte de arhitectura implementării Big Data
- Diferite modalități de calcul a volumului, vitezei, varietății și veracității datelor
- Cum se estimează creșterea datelor
- Studii de caz
Ziua-5: Sesiunea 4: Revizuire a furnizorilor Big Data și a produselor lor. Sesiune Q&A:
- Accenture
- APTEAN (Fost CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Fost 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Parte a EMC)
Cerințe
- Cunoștințe de bază despre funcționarea afacerilor și sistemelor de date în organizațiile guvernamentale din domeniul lor
- Înțelegere basică a SQL/Oracle sau a bazelor de date relaționale
- Înțelegere basică a Statisticii (la nivelul unui tabel de calcul)
35 ore
Mărturii (1)
Capacitatea formatorului de a alinia cursul la cerințele organizației și nu doar de a oferi cursul de dragul de a-l oferi.
Masilonyane - Revenue Services Lesotho
Curs - Big Data Business Intelligence for Govt. Agencies
Tradus de catre o masina