Schița de curs

Fiecare sesiune durează 2 ore

Ziua-1: Sesiune -1: Prezentare generală de business a Big Data BI în guvern

  • Studii de caz din NIH, DoE
  • Rata de adaptare la Big Data în agenții guvernamentale și cum se aliniază operațiunile viitoare în jurul analizei predictice a Big Data
  • Domeniile de aplicare pe scară largă în DoD, NSA, IRS, USDA etc.
  • Interfațierea Big Data cu datele legacy
  • Înțelegere basică a tehnologiilor care permit analiza predictivă
  • Integrarea datelor și vizualizarea pe tablou de bord
  • Gestionarea fraudei
  • Generarea regulilor de afaceri/detectare a fraudei
  • Detectarea și profilarea amenințărilor
  • Analiza cost-benefic pentru implementarea Big Data

Ziua-1: Sesiune-2 : Introducere la Big Data-1

  • Caracteristicile principale ale Big Data — volum, varietate, viteza și veracitate. Arhitectura MPP pentru volum.
  • Baze de date warehouse — schema statică, seturi de date care evoluează încet
  • Baze de date MPP precum Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Soluții bazate pe Hadoop — fără condiții asupra structurii setului de date.
  • Pattern tipic: HDFS, MapReduce (procesare), extragere din HDFS
  • Procesare batch — potrivită pentru analiză/nu interactiv
  • Volum: date de streaming CEP
  • Opțiuni tipice — produse CEP (de exemplu, Infostreams, Apama, MarkLogic etc)
  • Mai puțin pregătite pentru producție — Storm/S4
  • Baze de date NoSQL (coloane și cheie-valoare): cele mai potrivite ca adjunct analitic la warehouse/ bază de date

Ziua-1 : Sesiune -3 : Introducere la Big Data-2

Soluții NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (ierarhic) - GT.m, Cache
  • KV Store (ordonat) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tuple Store - Gigaspaces, Coord, Apache River
  • Bază de date obiect - ZopeDB, DB40, Shoal
  • Bază de date document - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Bază de date cu coloane lărgi - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variantele datelor: Introducere la problemele de curățare a datelor în Big Data

  • RDBMS — structură/schemă statică, nu promovează mediu agil și explorator.
  • NoSQL — semi-structurat, suficient de structurat pentru a stoca date fără schema exactă înainte de stocare
  • Probleme de curățare a datelor

Ziua-1 : Sesiune-4 : Introducere la Big Data-3: Hadoop

  • Când să alegeți Hadoop?
  • STRUCTURAT - Baze de date/warehouse enterprise pot stoca massive cantități de date (cu cost), dar impun structură (nu este bun pentru explorarea activă)
  • DATE SEMI-STRUCTURATE — dificil de gestionat cu soluții tradiționale (DW/DB)
  • Stocarea datelor = efort ENORM și static chiar după implementare
  • Pentru varietatea și volumul datelor, procesate pe hardware obișnuit — HADOOP
  • Hardware commoditizat necesar pentru a crea un cluster Hadoop

Introducere la MapReduce/HDFS

  • MapReduce — distribuie procesarea pe mai multe servere
  • HDFS — face disponibile datele local pentru procesul de calcul (cu redundanță)
  • Date — pot fi nestructurate/senzare (în contrast cu RDBMS)
  • Responsabilitatea dezvoltatorului de a interpreta datele
  • Programarea MapReduce = lucrul cu Java (avantaje/disavantaje), încărcarea manuală a datelor în HDFS

Ziua-2: Sesiune-1: Ecosystem Big Data - Construirea ETL Big Data: universul instrumentelor Big Data - care să folosească și când?

  • Hadoop vs. alte soluții NoSQL
  • Pentru acces interactiv, aleatoriu la date
  • Hbase (bază de date orientată pe coloane) în cadrul Hadoop
  • Acces aleatoriu la date, dar cu restricții impuse (max 1 PB)
  • Nu este bun pentru analize ad-hoc, potrivit pentru logging, numărare, time-series
  • Sqoop - Import din baze de date în Hive sau HDFS (acces JDBC/ODBC)
  • Flume — fluxul datelor (de exemplu, datele jurnal) în HDFS

Ziua-2: Sesiune-2: Sistem de gestionare Big Data

  • Părți mobile, noduri de calcul start/stop: ZooKeeper - pentru configurare/coordonare/servicii de nume
  • Pipeline/workflow complex: Oozie — gestionarea workflow-ului, dependențelor, lanțatul secvențial
  • Implementare, configurare, management cluster, upgrade etc (admin sistem) : Ambari
  • În cloud: Whirr

Ziua-2: Sesiune-3: Analiza predictivă în Inteligenta de Business -1: Tehnicii fundamentale și BI bazat pe machine learning:

  • Introducere la machine learning
  • Învățarea tehnicilor de clasificare
  • Predictia Bayesiană — pregătirea fișierului de instruire
  • Support Vector Machine
  • KNN p-Tree Algebra & mining vertical
  • Rețele neurale
  • Problema variabilei mari a Big Data — Random forest (RF)
  • Problema automatizării Big Data — Multi-model ensemble RF
  • Automatizare prin Soft10-M
  • Instrument de analiză a textului - Treeminer
  • Învățarea agilă
  • Învățarea bazată pe agenți
  • Învățarea distribuită
  • Introducere la instrumente open source pentru analiza predictivă: R, Rapidminer, Mahut

Ziua-2: Sesiune-4 Ecosystem de analiză predictivă-2: Probleme comune de analiză predictivă în guvern

  • Analiza de insight
  • Analiza vizualizării
  • Analiza predictivă structurată
  • Analiza predictivă nestructurată
  • Profilarea amenințărilor/fraudei/vendor
  • Motor de recomandare
  • Detectarea modelului
  • Descoperirea regulilor/scenario-urilor — eșec, frauda, optimizare
  • Descoperirea cauzei de bază
  • Analiza sentimentului
  • Analiza CRM
  • Analiza rețelei
  • Analiza textului
  • Revizuire asistată de tehnologie
  • Analiza fraudei
  • Analiza în timp real

Ziua-3: Sesiunea-1 : Analiză rapidă și scalabilă peste Hadoop

  • De ce algoritmul de analiză comun eșuează în Hadoop/HDFS
  • Apache Hama — pentru calcul distribuit bulk synchronous
  • Apache SPARK — pentru computere cluster pentru analiză în timp real
  • Laboratorul de grafică CMU2 — abordare asincronă bazată pe grafuri la calcul distribuit
  • Abordarea p-Algebra KNN din Treeminer pentru reducerea costului hardware

Ziua-3: Sesiunea-2: Instrumente de eDiscovery și forensică

  • eDiscovery peste Big Data vs. date legacy — o comparație a costurilor și performanței
  • Codificare predictivă și revizuire asistată de tehnologie (TAR)
  • Demo live a unui produs TAR (vMiner) pentru a înțelege cum funcționează TAR pentru descoperirea mai rapidă
  • Indexare rapidă prin HDFS — viteza datelor
  • NLP sau procesarea limbajului natural — diverse tehnici și produse open source
  • eDiscovery în limbi străine — tehnologie pentru procesarea limbilor străine

Ziua-3: Sesiunea 3: BI Big Data pentru securitatea cibernetică — Înțelegerea viziunii complete de 360 grade din colectarea rapidă a datelor până la identificarea amenințărilor

  • Înțelegerea analizei de securitate de bază — suprafața de atac, configurarea incorectă a securității, apărarea gazdei
  • Infrastructura de rețea/large datapipe / ETL pentru analiză în timp real
  • Prescriptiv vs predictiv — reguli fixe bazate pe metadate vs. descoperire automată a regulilor de amenințare

Ziua-3: Sesiunea 4: Big Data în USDA: Aplicații în agricultură

  • Introducere la IoT (Internet of Things) pentru agricultură — date Big Data și control bazat pe senzori
  • Introducere la imaginarea satelitară și aplicațiile sale în agricultură
  • Integrarea datelor de senzor și imagini pentru fertilitatea solului, recomandări de culturare și previziuni
  • Asigurări agricole și Big Data
  • Previzionarea pierderilor de cultură

Ziua-4: Sesiunea-1: BI pentru prevenirea fraudei din Big Data în guvern - Analiza fraudei:

  • Clasificarea de bază a analizei fraudei — bazată pe reguli vs. analiză predictivă
  • Machine learning supravegherat vs. nesupravegherat pentru detectarea modelului de fraudă
  • Fraudă a vendor-ilor/pretinderea prețurilor pentru proiecte
  • Fraudă Medicare și Medicaid — tehnici de detectare a fraudei pentru procesarea declarațiilor
  • Fraude la rambursarea călătoriilor
  • Fraudă de restituire IRS
  • Vom oferi studii de caz și demo live oriunde datele sunt disponibile.

Ziua-4: Sesiunea-2: Analiza socială a mass-media - Colectarea și analiza informațiilor

  • API ETL Big Data pentru extragerea datelor de la mass-media
  • Text, imagine, metadate și video
  • Analiza sentimentului din fluxul de mass-media
  • Filtrarea contextuală și non-contextuală a fluxului de mass-media
  • Tabloul de bord social pentru integrarea diverselor canale de mass-media
  • Profilare automată a profilurilor sociale
  • Vom oferi demo live pentru fiecare analiză prin instrumentul Treeminer.

Ziua-4: Sesiunea-3: Analiza Big Data în procesarea imaginilor și fluxurile video

  • Tehnici de stocare a imaginilor în Big Data — soluții de stocare pentru date care depășesc petabytes
  • LTFS și LTO
  • GPFS-LTFS (soluție stratificată de stocare pentru imagini Big Data)
  • Fundamentele analizei imaginilor
  • Recunoașterea obiectelor
  • Segmentarea imaginii
  • Urmarirea mișcării
  • Reconstrucția imagini 3-D

Ziua-4: Sesiunea-4: Aplicații Big Data în NIH:

  • Domeniile emergente ale bioinformaticii
  • Meta-genomica și probleme de mining Big Data
  • Analiza predictivă Big Data pentru farmacogenomica, metabolomica și proteomica
  • Big Data în procesul genomic descendent
  • Aplicații ale analizei predictive Big Data în sănătatea publică

Tabloul de bord Big Data pentru acces rapid la date diverse și afișare:

  • Integrarea platformei existente de aplicații cu tabloul de bord Big Data
  • Gestionarea Big Data
  • Studiu de caz al tabloului de bord Big Data: Tableau și Pentaho
  • Utilizarea aplicației Big Data pentru a oferi servicii bazate pe locație în guvern
  • Sistem de urmărire și gestionare

Ziua-5: Sesiunea-1: Cum justifica implementarea BI Big Data într-o organizație:

  • Definirea ROI pentru implementarea Big Data
  • Studii de caz pentru economisirea timpului analistilor la colectarea și pregătirea datelor — creșterea productivității
  • Studii de caz ale veniturilor generate prin economisirea costului bazelor de date licențiate
  • Venituri generate din serviciile bazate pe locație
  • Economisiri prin prevenirea fraudei
  • O abordare integrată cu tablouri de calcul pentru a calcula aproximativ cheltuielile vs. venituri/gășiri din implementarea Big Data.

Ziua-5: Sesiunea-2: Procedura paş-n-pas pentru înlocuirea sistemului legacy cu un sistem Big Data:

  • Înțelegerea practică a căii de migrație Big Data
  • Ce informații importante sunt necesare înainte de arhitectura implementării Big Data
  • Diferite modalități de calcul a volumului, vitezei, varietății și veracității datelor
  • Cum se estimează creșterea datelor
  • Studii de caz

Ziua-5: Sesiunea 4: Revizuire a furnizorilor Big Data și a produselor lor. Sesiune Q&A:

  • Accenture
  • APTEAN (Fost CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Fost 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Parte a EMC)

Cerințe

  • Cunoștințe de bază despre funcționarea afacerilor și sistemelor de date în organizațiile guvernamentale din domeniul lor
  • Înțelegere basică a SQL/Oracle sau a bazelor de date relaționale
  • Înțelegere basică a Statisticii (la nivelul unui tabel de calcul)
 35 ore

Numărul de participanți


Pret per participant

Mărturii (1)

Cursuri viitoare

Categorii înrudite