Schița de curs

Fiecare sesiune durează 2 ore

Ziua 1: Sesiunea 1: Prezentare de business despre De ce Inteligența de Business pe Date Mari în Guvern

  • Studii de caz de la NIH, DoE
  • Rata de adaptare a Datelor Mari în Agențiile Guvernamentale și cum își aliniază operațiunile viitoare în jurul Analizelor Predictive pe Date Mari
  • Arii de aplicare la scară largă în DoD, NSA, IRS, USDA etc.
  • Interfațarea Datelor Mari cu datele moștenite
  • Înțelegerea de bază a tehnologiilor care permit analize predictive
  • Integrarea datelor și vizualizarea pe tablou de bord
  • Managementul fraudelor
  • Generarea regulilor de business/detecția fraudelor
  • Detecția și profilarea amenințărilor
  • Analiza cost-beneficiu pentru implementarea Datelor Mari

Ziua 1: Sesiunea 2: Introducere în Date Mari-1

  • Principalele caracteristici ale Datelor Mari - volum, varietate, viteză și veracitate. Arhitectura MPP pentru volum.
  • Depozite de date - schema statică, set de date care evoluează încet
  • Baze de date MPP precum Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Soluții bazate pe Hadoop - fără condiții pe structura setului de date.
  • Model tipic: HDFS, MapReduce (procesare), preluare din HDFS
  • Procesare în lot - potrivită pentru analize/neinteractive
  • Volum: date de streaming CEP
  • Alegere tipică - produse CEP (de ex. Infostreams, Apama, MarkLogic etc)
  • Mai puțin gata pentru producție - Storm/S4
  • Baze de date NoSQL - (columnal și cheie-valoare): Cel mai potrivit ca adjunct analitic la depozitul de date/baza de date

Ziua 1: Sesiunea 3: Introducere în Date Mari-2

Soluții NoSQL

  • Magazin KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • Magazin KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Magazin KV (Ierarhic) - GT.m, Cache
  • Magazin KV (Ordonat) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • Cache KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Magazin de tupluri - Gigaspaces, Coord, Apache River
  • Bază de date de obiecte - ZopeDB, DB40, Shoal
  • Magazin de documente - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, Baze de date XML, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Magazin columnal larg - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Varietăți de date: Introducere în problema curățării datelor în Date Mari

  • RDBMS - structură/schemă statică, nu promovează un mediu agil, explorator.
  • NoSQL - semi-structurat, suficientă structură pentru a stoca date fără o schemă exactă înainte de stocarea datelor
  • Probleme de curățare a datelor

Ziua 1: Sesiunea 4: Introducere în Date Mari-3: Hadoop

  • Când să alegi Hadoop?
  • STRUCTURAT - Depozitele de date/baze de date de întreprindere pot stoca date masive (la un cost), dar impun structură (nu sunt bune pentru explorare activă)
  • Date SEMI STRUCTURATE - greu de realizat cu soluții tradiționale (DW/DB)
  • Stocarea datelor = Efort URIAS și static chiar și după implementare
  • Pentru varietatea și volumul de date, procesate pe hardware de consum - HADOOP
  • Hardware de consum necesar pentru a crea un cluster Hadoop

Introducere în Map Reduce /HDFS

  • MapReduce - distribuirea calculului pe mai multe servere
  • HDFS - face datele disponibile local pentru procesul de calcul (cu redundanță)
  • Date - pot fi nestructurate/fără schemă (spre deosebire de RDBMS)
  • Responsabilitatea dezvoltatorului de a da sens datelor
  • Programarea MapReduce = lucrul cu Java (avantaje/dezavantaje), încărcarea manuală a datelor în HDFS

Ziua 2: Sesiunea 1: Ecosistemul Datelor Mari - Construirea ETL pentru Date Mari: universul instrumentelor pentru Date Mari - care să folosești și când?

  • Hadoop vs. Alte soluții NoSQL
  • Pentru acces interactiv, aleatoriu la date
  • Hbase (bază de date orientată pe coloane) pe Hadoop
  • Acces aleatoriu la date, dar cu restricții impuse (max 1 PB)
  • Nu este bun pentru analize ad-hoc, este bun pentru înregistrări, numărătoare, serii temporale
  • Sqoop - Import din baze de date în Hive sau HDFS (acces JDBC/ODBC)
  • Flume - Stream de date (de ex. date de log) în HDFS

Ziua 2: Sesiunea 2: Sistemul de Management al Datelor Mari

  • Părți mobile, noduri de calcul care pornesc/eșuează: ZooKeeper - Pentru configurație/coordonare/servicii de numire
  • Pipelin/flux de lucru complex: Oozie - gestionează fluxul de lucru, dependențele, lanțul de margarete
  • Implementare, configurare, management de cluster, actualizare etc (administrator de sistem): Ambari
  • În Cloud: Whirr

Ziua 2: Sesiunea 3: Analize predictive în Inteligența de Business -1: Tehnici fundamentale & BI bazat pe învățare automată:

  • Introducere în învățarea automată
  • Tehnici de clasificare
  • Predicție Bayesiană - pregătirea fișierului de antrenament
  • Mașină de vectori de suport
  • KNN p-Algebră și minerit vertical
  • Rețea neurală
  • Problema variabilelor mari în Date Mari - Pădure aleatoare (RF)
  • Problema de automatizare a Datelor Mari - Ansamblu multi-model RF
  • Automatizare prin Soft10-M
  • Instrument de analiză textuală - Treeminer
  • Învățare agilă
  • Învățare bazată pe agenți
  • Învățare distribuită
  • Introducere în instrumente open source pentru analize predictive: R, Rapidminer, Mahout

Ziua 2: Sesiunea 4 Ecosistemul analizelor predictive-2: Probleme comune de analiză predictive în Guvern

  • Analiză de insight
  • Analiză de vizualizare
  • Analiză predictivă structurată
  • Analiză predictivă nestructurată
  • Profilarea amenințărilor/fraudelor/furnizorilor
  • Motor de recomandare
  • Detecția de modele
  • Descoperirea regulilor/scenariilor - eșec, fraudă, optimizare
  • Descoperirea cauzei de bază
  • Analiza sentimentelor
  • Analiză CRM
  • Analiză de rețea
  • Analiză textuală
  • Revizuire asistată tehnologic
  • Analiză de fraudă
  • Analiză în timp real

Ziua 3: Sesiunea 1: Analiză în timp real și scalabilă peste Hadoop

  • De ce algoritmii comuni de analiză eșuează în Hadoop/HDFS
  • Apache Hama - pentru calcul distribuit sincron
  • Apache SPARK - pentru calcul în cluster pentru analiză în timp real
  • CMU Graphics Lab2 - abordare asincronă bazată pe grafice pentru calcul distribuit
  • Abordare bazată pe KNN p-Algebră de la Treeminer pentru costuri reduse de hardware

Ziua 3: Sesiunea 2: Instrumente pentru eDiscovery și Criminalistică

  • eDiscovery pe Date Mari vs. date moștenite - o comparație a costului și performanței
  • Codificare predictivă și revizuire asistată tehnologic (TAR)
  • Demo live al unui produs TAR (vMiner) pentru a înțelege cum funcționează TAR pentru descoperire mai rapidă
  • Indexare mai rapidă prin HDFS - viteza datelor
  • Prelucrarea limbajului natural (NLP) - diverse tehnici și produse open source
  • eDiscovery în limbi străine - tehnologii pentru prelucrarea limbilor străine

Ziua 3: Sesiunea 3: Inteligența de Business pe Date Mari pentru Securitate Cibernetică - Înțelegerea vederii complete de 360 de grade de la colectarea rapidă a datelor la identificarea amenințărilor

  • Înțelegerea elementelor de bază ale analizei de securitate - suprafața de atac, configurarea greșită a securității, apărarea gazdelor
  • Infrastructură de rețea/ Conductă de date mare / ETL de răspuns pentru analiză în timp real
  • Prescriptiv vs predictiv - Reguli fixe vs descoperirea automată a regulilor de amenințare din Meta date

Ziua 3: Sesiunea 4: Aplicații ale Datelor Mari în USDA: Agricultură

  • Introducere în IoT (Internetul Obiectelor) pentru agricultură - Date Mari bazate pe senzori și control
  • Introducere în imaginile din satelit și aplicațiile lor în agricultură
  • Integrarea datelor de senzori și imagini pentru fertilitatea solului, recomandări de cultivare și prognoză
  • Asigurări agricole și Date Mari
  • Prognoza pierderilor de recoltă

Ziua 4: Sesiunea 1: Prevenirea fraudelor prin Inteligența de Business pe Date Mari în Guvern - Analiză de fraudă:

  • Clasificarea de bază a analizei de fraudă - bazată pe reguli vs analiză predictivă
  • Învățare automată supervizată vs nesupervizată pentru detectarea modelelor de fraudă
  • Frauda furnizorilor/suprafacturarea proiectelor
  • Frauda Medicare și Medicaid - tehnici de detectare a fraudelor pentru procesarea cererilor
  • Fraudele de rambursare a călătoriilor
  • Fraudele de rambursare a IRS
  • Studii de caz și demo live vor fi prezentate acolo unde datele sunt disponibile.

Ziua 4: Sesiunea 2: Analiză de Social Media - Colectarea și analiza de informații

  • API ETL pentru Date Mari pentru extragerea datelor de social media
  • Text, imagine, meta date și video
  • Analiza sentimentelor din fluxurile de social media
  • Filtrarea contextuală și necontextuală a fluxurilor de social media
  • Tablou de bord de social media pentru integrarea diverselor platforme de social media
  • Profilarea automată a profilurilor de social media
  • Demo live al fiecărei analize va fi prezentat prin instrumentul Treeminer.

Ziua 4: Sesiunea 3: Analiză de Date Mari în procesarea imaginilor și fluxurilor video

  • Tehnici de stocare a imaginilor în Date Mari - Soluții de stocare pentru date care depășesc petabyte
  • LTFS și LTO
  • GPFS-LTFS (Soluție de stocare stratificată pentru imagini mari)
  • Fundamentele analizei imaginilor
  • Recunoașterea obiectelor
  • Segmentarea imaginilor
  • Urmărirea mișcării
  • Reconstrucția 3-D a imaginilor

Ziua 4: Sesiunea 4: Aplicații ale Datelor Mari în NIH:

  • Domenii emergente ale Bioinformaticii
  • Metagenomica și problemele de minerit a Datelor Mari
  • Analiza predictivă a Datelor Mari pentru Farmacogenomică, Metabolomică și Proteomică
  • Date Mari în procesul de genomică downstream
  • Aplicația analizei predictive a Datelor Mari în Sănătatea Publică

Tablou de bord pentru Date Mari pentru acces rapid la diverse date și afișare:

  • Integrarea platformei de aplicații existente cu Tabloul de bord pentru Date Mari
  • Managementul Datelor Mari
  • Studiu de caz al Tabloului de bord pentru Date Mari: Tableau și Pentaho
  • Utilizarea aplicației pentru Date Mari pentru a oferi servicii bazate pe locație în Guvern.
  • Sistem de urmărire și management

Ziua 5: Sesiunea 1: Cum să justifici implementarea Inteligenței de Business pe Date Mari într-o organizație:

  • Definirea ROI pentru implementarea Datelor Mari
  • Studii de caz pentru economisirea timpului analiștilor pentru colectarea și pregătirea datelor - creșterea productivității
  • Studii de caz pentru câștiguri de venit din economisirea costurilor bazelor de date licențiate
  • Câștiguri de venit din serviciile bazate pe locație
  • Economii din prevenirea fraudelor
  • O abordare integrată de foaie de calcul pentru a calcula aproximativ cheltuielile vs. câștigurile/economiile din implementarea Datelor Mari.

Ziua 5: Sesiunea 2: Procedura pas cu pas pentru înlocuirea sistemului de date moștenit cu un sistem de Date Mari:

  • Înțelegerea drumului practic de migrare a Datelor Mari
  • Ce informații importante sunt necesare înainte de a proiecta o implementare a Datelor Mari
  • Care sunt diferitele moduri de calcul al volumului, vitezei, varietății și veracității datelor
  • Cum se estimează creșterea datelor
  • Studii de caz

Ziua 5: Sesiunea 4: Recenzie a furnizorilor de Date Mari și recenzie a produselor lor. Sesiune de Întrebări și Răspunsuri:

  • Accenture
  • APTEAN (Fostul CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Fostul 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Parte din EMC)

Cerințe

  • Cunoștințe de bază despre operațiunile de business și sistemele de date în domeniul guvernamental
  • Înțelegere de bază a SQL/Oracle sau a bazelor de date relaționale
  • Înțelegere de bază a Statisticii (la nivel de foaie de calcul)
 35 Ore

Numărul de participanți


Pret per participant

Mărturii (1)

Cursuri viitoare

Categorii înrudite