Schița de curs

Fiecare sesiune durează 2 ore

Ziua-1: Sesiunea -1: Prezentare generală a Big Data Business Intelligence în guvern

  • Studii de caz din NIH, DoE
  • Ritmul adoptării Big Data în agenții guvernamentale și cum aliniază operațiile viitoare în jurul analizei predictivă a Big Data
  • Aplicații pe scară largă în DoD, NSA, IRS, USDA etc.
  • Interfațierea Big Data cu datele legate de sistemul vechi
  • Înțelegere basică a tehnologiilor care enablează analiza predictivă
  • Integrarea datelor și vizualizarea tabloului de bord
  • Gestionarea fraudei
  • Generarea regulilor de afaceri / detectare a fraudelor
  • Detectarea amenințărilor și profilarea acestora
  • Analiza cost-beneficiu pentru implementarea Big Data

Ziua-1: Sesiunea -2: Introducere la Big Data-1

  • Principalele caracteristici ale Big Data - volum, varietate, viteză și veridicitate. Arhitectura MPP pentru volum.
  • Depozite de date - schemă statică, set de date care se modifică încet
  • Baze de date MPP precum Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Soluții bazate pe Hadoop - fără condiții privind structura setului de date.
  • Schemă tipică: HDFS, MapReduce (crunch), retragere din HDFS
  • Batch - potrivit pentru analiză/interacțiuni neliniare
  • Volum: date de flux CEP
  • Opțiuni tipice - produse CEP (de exemplu, Infostreams, Apama, MarkLogic etc)
  • Mai puțin pregătite pentru producție - Storm/S4
  • Baze de date NoSQL (coloane și cheie-valoare): cele mai potrivite ca complement analitic la depozitul de date/baza de date

Ziua-1: Sesiunea -3: Introducere la Big Data-2

Soluții NoSQL

  • Magazin KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Magazin KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Magazin KV (ierarhic) - GT.m, Cache
  • Magazin KV (ordonat) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • Cache KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Magazin Tuple - Gigaspaces, Coord, Apache River
  • Bază de date obiect - ZopeDB, DB40, Shoal
  • Depozit de documente - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Magazin cu coloane largi - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variațiile de date: Introducere la problemele de curățenie a datelor în Big Data

  • RDBMS - structură/statică, nu promovează mediu agil și explorator.
  • NoSQL - semi-structurat, suficient de structurat pentru a stoca date fără schema exactă înainte de stocare
  • Probleme de curățenie a datelor

Ziua-1: Sesiunea -4: Introducere la Big Data-3: Hadoop

  • Când să alegeți Hadoop?
  • STRUCTURAT - depozite de date/baze de date enterprise pot stoca massive volume de date (la un preț), dar impun structură (nepotrivit pentru explorarea activă)
  • DATE SEMI-STRUCTURATE - dificil de realizat cu soluțiile tradiționale (DW/DB)
  • Stocarea datelor = efort ENORM și static chiar după implementare
  • Pentru varietatea și volumul datelor, procesate pe hardware comun - HADOOP
  • Hardware comun necesar pentru a crea un cluster Hadoop

Introducere la MapReduce/HDFS

  • MapReduce - distribuie procesarea pe mai multe servere
  • HDFS - face datele disponibile local pentru procesarea (cu redundanță)
  • Date - pot fi nestructurate/fără schemă (la fel ca RDBMS)
  • Responsabilitatea dezvoltatorului de a interpreta datele
  • Programarea MapReduce = lucrul cu Java (avantaje/disavantaje), încărcarea manuală a datelor în HDFS

Ziua-2: Sesiunea -1: Ecosistemul Big Data - Construirea ETL Big Data: universul de instrumente Big Data - cea mai potrivită și când?

  • Hadoop vs. alte soluții NoSQL
  • Pentru acces interactiv, aleatoriu la date
  • Hbase (bază de date orientată pe coloane) peste Hadoop
  • Acces aleatoriu la date dar cu restricții impuse (max 1 PB)
  • Nerecomandat pentru analiza ad-hoc, potrivit pentru logging, numărare, serie de timp
  • Sqoop - Import din baze de date în Hive sau HDFS (acces JDBC/ODBC)
  • Flume - Stream de date (de exemplu, date de jurnal) în HDFS

Ziua-2: Sesiunea -2: Sistem de management Big Data

  • Parte mobile, noduri compute start/fail: ZooKeeper - pentru servicii de configurare/coordonare/nominație
  • Pipeline/flux complex: Oozie - gestionarea fluxului de lucru, dependențiile, lanțare secvențială
  • Implementare, configurare, management cluster, upgrade etc (sys admin): Ambari
  • În cloud: Whirr

Ziua-2: Sesiunea -3: Analiză predictivă în Business Intelligence -1: Tehnicii fundamentale și BI bazat pe învățare automată:

  • Introducere la învățarea automată
  • Tehnici de clasificare învățate
  • Predicție Bayesiană - pregătirea fișierului de instruire
  • Mașina de vectori de sprijin (SVM)
  • KNN p-Tree Algebra și mining vertical
  • Rețele neurale
  • Problema variabilelor mari în Big Data - Random Forest (RF)
  • Problema automatizării în Big Data - Ensemble multi-model RF
  • Automatizare prin Soft10-M
  • Instrument de analiză textuală - Treeminer
  • Învățarea agilă
  • Învățarea bazată pe agenți
  • Învățarea distribuită
  • Introducere la instrumente open source pentru analiza predictivă: R, Rapidminer, Mahout

Ziua-2: Sesiunea -4 Ecosistem de analiză predictivă -2: Probleme comune de analiză predictivă în guvern

  • Analiză de înțelegere
  • Analiză vizuală
  • Analiză predictivă structurată
  • Analiză predictivă nestructurată
  • Profilare a amenințărilor/fraudelor/vanzatorilor
  • Motor de recomandări
  • Detectarea modelurilor
  • Descoperirea regulilor/scenariilor - eșec, frauda, optimizare
  • Descoperirea cauzei de bază
  • Analiza sentimentelor
  • Analiză CRM
  • Analiză de rețea
  • Analiză textuală
  • Revizuire asistată de tehnologie
  • Analiză a fraudei
  • Analiză în timp real

Ziua-3: Sesiunea -1: Analiză în timp real și scalabilă peste Hadoop

  • De ce algoritmii de analiză obișnuiți eșuează în Hadoop/HDFS
  • Apache Hama - pentru calcul distribuit sincronizat la scară largă
  • Apache SPARK - pentru calcul cluster în timp real
  • Laboratorul Grafic CMU2 - abordare asincronă bazată pe grafice la calcul distribuit
  • Abordarea KNN p-Algebra din Treeminer pentru reducerea costului hardware de operațiune

Ziua-3: Sesiunea -2: Instrumente pentru eDiscovery și Forensics

  • eDiscovery peste Big Data vs. datele vechi - comparație a costului și performanței
  • Codificare predictivă și revizuire asistată de tehnologie (TAR)
  • Demo live a unui produs TAR (vMiner) pentru a înțelege cum funcționează TAR pentru descoperire mai rapidă
  • Indexare mai rapidă prin HDFS - viteză datelor
  • NLP sau procesarea limbajului natural - diverse tehnici și produse open source
  • eDiscovery în limbi străine - tehnologie pentru procesarea limbilor străine

Ziua-3: Sesiunea 3: Big Data BI pentru securitatea cibernetică - înțelegerea vederii de 360 grade a colectării rapide a datelor până la identificarea amenințărilor

  • Înțelegerea bazelor analizei securitare - suprafața de atac, configurarea greșită a securității, defenzele gazdei
  • Infrastructura rețelei / tubulaj de date larg / ETL de răspuns pentru analiză în timp real
  • Prescriptiv vs predictiv - reguli fixe bazate pe metadate vs descoperirea automată a regulilor amenințării

Ziua-3: Sesiunea 4: Big Data în USDA: Aplicații în agricultură

  • Introducere la IoT (Internet of Things) pentru agricultură - Big Data bazat pe senzori și control
  • Introducere la imaginea satelitare și aplicațiile sale în agricultură
  • Integrarea datelor de senzori și imagini pentru fertilitatea solului, recomandări de culturizare și pronóstic
  • Asigurarea agriculturii și Big Data
  • Pronosticul pierderilor de recoltă

Ziua-4: Sesiunea -1: BI pentru prevenirea fraudei din Big Data în guvern - Analiză a fraudei:

  • Clasificarea de bază a analizei fraudei - bazată pe reguli vs. analiză predictivă
  • Învățare supervizată vs. ne-supervizată pentru detectarea modelurilor de fraudă
  • Frauda furnizorului / supracostuirea proiectelor
  • Fraudă Medicare și Medicaid - tehnici de detectare a fraudei pentru procesarea declarațiilor
  • Frauda la rambursările de călătorii
  • Fraudă de restituire IRS
  • Studii de caz și demo live vor fi prezentate oriunde datele sunt disponibile.

Ziua-4: Sesiunea -2: Analiză social media - colectarea și analiza informațiilor

  • API Big Data ETL pentru extragerea datelor de pe platformele sociale
  • Text, imagine, metadate și video
  • Analiza sentimentului din fluxul social media
  • Filtrarea contextuală și necontextuală a fluxului social media
  • Tabloul de bord social media pentru integrarea diverselor platforme sociale
  • Profilare automată a profilurilor sociale
  • Demo live a fiecărei analize vor fi prezentate prin instrumentul Treeminer.

Ziua-4: Sesiunea -3: Analiză Big Data în procesarea imaginilor și feed-urile video

  • Tehnici de stocare a imaginilor în Big Data - soluții de stocare pentru date care depășesc petabyte
  • LTFS și LTO
  • GPFS-LTFS (soluție stratificată de stocare pentru imagini Big Data)
  • Fundamentele analizei imaginilor
  • Recunoașterea obiectelor
  • Segmentarea imaginii
  • Urmărirea mișcării
  • Reconstrucția imaginei 3D

Ziua-4: Sesiunea -4: Aplicații Big Data în NIH:

  • Domeniile emergente ale bioinformaticii
  • Meta-genomica și problemele de mining Big Data
  • Analiză predictivă Big Data pentru farmacogenomica, metabolomics și proteomica
  • Big Data în procesul downstream genomic
  • Aplicații ale analizei predictive Big Data în sănătatea publică

Tabloul de bord Big Data pentru accesibilitate rapidă a datelor diverse și afișare:

  • Integrarea platformei existente de aplicații cu tabloul de bord Big Data
  • Managementul datelor Big Data
  • Studiu de caz al tabloului de bord Big Data: Tableau și Pentaho
  • Utilizarea aplicației Big Data pentru a promova serviciile bazate pe locație în guvern
  • Sistem de urmărire și management

Ziua-5: Sesiunea -1: Cum justifica implementarea BI Big Data într-o organizație:

  • Definirea ROI pentru implementarea Big Data
  • Studii de caz pentru economisirea timpului analiștilor la colectarea și pregătirea datelor - creșterea productivității
  • Studii de caz privind câștigul de venituri prin economisirea costurilor licenței bazei de date
  • Câștig de venituri din serviciile bazate pe locație
  • Economisire prin prevenirea fraudei
  • O abordare integrată în fișiere Excel pentru a calcula aproximativ cheltuielile vs. câștigul/sconomisi de venituri din implementarea Big Data.

Ziua-5: Sesiunea -2: Procedura pas cu pas pentru înlocuirea sistemului de date vechi cu sistemul Big Data:

  • Înțelegerea planului practic de migrație Big Data
  • Ce informații importante sunt necesare înainte de arhitectura implementării Big Data
  • Diferite modalități de calcul al volumului, vitezei, varietății și veridicității datelor
  • Cum se estimează creșterea datelor
  • Studii de caz

Ziua-5: Sesiunea -4: Revizuirea furnizorilor Big Data și a produselor lor. Sesión Q&A:

  • Accenture
  • APTEAN (Fost CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Fost 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Parte a EMC)

Cerințe

  • Cunoștințe de bază despre operațiunile afacerilor și sistemele de date în guvern în domeniul lor
  • Înțelegere basică a SQL/Oracle sau bazei de date relaționale
  • Înțelegere basică a Statisticii (la nivelul unui fișier Excel)
 35 ore

Numărul de participanți


Pret per participant

Mărturii (1)

Cursuri viitoare

Categorii înrudite