Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.
Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.
Schița de curs
Fiecare sesiune durează 2 ore
Ziua 1: Sesiunea 1: Prezentare de business despre De ce Inteligența de Business pe Date Mari în Guvern
- Studii de caz de la NIH, DoE
- Rata de adaptare a Datelor Mari în Agențiile Guvernamentale și cum își aliniază operațiunile viitoare în jurul Analizelor Predictive pe Date Mari
- Arii de aplicare la scară largă în DoD, NSA, IRS, USDA etc.
- Interfațarea Datelor Mari cu datele moștenite
- Înțelegerea de bază a tehnologiilor care permit analize predictive
- Integrarea datelor și vizualizarea pe tablou de bord
- Managementul fraudelor
- Generarea regulilor de business/detecția fraudelor
- Detecția și profilarea amenințărilor
- Analiza cost-beneficiu pentru implementarea Datelor Mari
Ziua 1: Sesiunea 2: Introducere în Date Mari-1
- Principalele caracteristici ale Datelor Mari - volum, varietate, viteză și veracitate. Arhitectura MPP pentru volum.
- Depozite de date - schema statică, set de date care evoluează încet
- Baze de date MPP precum Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Soluții bazate pe Hadoop - fără condiții pe structura setului de date.
- Model tipic: HDFS, MapReduce (procesare), preluare din HDFS
- Procesare în lot - potrivită pentru analize/neinteractive
- Volum: date de streaming CEP
- Alegere tipică - produse CEP (de ex. Infostreams, Apama, MarkLogic etc)
- Mai puțin gata pentru producție - Storm/S4
- Baze de date NoSQL - (columnal și cheie-valoare): Cel mai potrivit ca adjunct analitic la depozitul de date/baza de date
Ziua 1: Sesiunea 3: Introducere în Date Mari-2
Soluții NoSQL
- Magazin KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Magazin KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Magazin KV (Ierarhic) - GT.m, Cache
- Magazin KV (Ordonat) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- Cache KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Magazin de tupluri - Gigaspaces, Coord, Apache River
- Bază de date de obiecte - ZopeDB, DB40, Shoal
- Magazin de documente - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, Baze de date XML, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Magazin columnal larg - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Varietăți de date: Introducere în problema curățării datelor în Date Mari
- RDBMS - structură/schemă statică, nu promovează un mediu agil, explorator.
- NoSQL - semi-structurat, suficientă structură pentru a stoca date fără o schemă exactă înainte de stocarea datelor
- Probleme de curățare a datelor
Ziua 1: Sesiunea 4: Introducere în Date Mari-3: Hadoop
- Când să alegi Hadoop?
- STRUCTURAT - Depozitele de date/baze de date de întreprindere pot stoca date masive (la un cost), dar impun structură (nu sunt bune pentru explorare activă)
- Date SEMI STRUCTURATE - greu de realizat cu soluții tradiționale (DW/DB)
- Stocarea datelor = Efort URIAS și static chiar și după implementare
- Pentru varietatea și volumul de date, procesate pe hardware de consum - HADOOP
- Hardware de consum necesar pentru a crea un cluster Hadoop
Introducere în Map Reduce /HDFS
- MapReduce - distribuirea calculului pe mai multe servere
- HDFS - face datele disponibile local pentru procesul de calcul (cu redundanță)
- Date - pot fi nestructurate/fără schemă (spre deosebire de RDBMS)
- Responsabilitatea dezvoltatorului de a da sens datelor
- Programarea MapReduce = lucrul cu Java (avantaje/dezavantaje), încărcarea manuală a datelor în HDFS
Ziua 2: Sesiunea 1: Ecosistemul Datelor Mari - Construirea ETL pentru Date Mari: universul instrumentelor pentru Date Mari - care să folosești și când?
- Hadoop vs. Alte soluții NoSQL
- Pentru acces interactiv, aleatoriu la date
- Hbase (bază de date orientată pe coloane) pe Hadoop
- Acces aleatoriu la date, dar cu restricții impuse (max 1 PB)
- Nu este bun pentru analize ad-hoc, este bun pentru înregistrări, numărătoare, serii temporale
- Sqoop - Import din baze de date în Hive sau HDFS (acces JDBC/ODBC)
- Flume - Stream de date (de ex. date de log) în HDFS
Ziua 2: Sesiunea 2: Sistemul de Management al Datelor Mari
- Părți mobile, noduri de calcul care pornesc/eșuează: ZooKeeper - Pentru configurație/coordonare/servicii de numire
- Pipelin/flux de lucru complex: Oozie - gestionează fluxul de lucru, dependențele, lanțul de margarete
- Implementare, configurare, management de cluster, actualizare etc (administrator de sistem): Ambari
- În Cloud: Whirr
Ziua 2: Sesiunea 3: Analize predictive în Inteligența de Business -1: Tehnici fundamentale & BI bazat pe învățare automată:
- Introducere în învățarea automată
- Tehnici de clasificare
- Predicție Bayesiană - pregătirea fișierului de antrenament
- Mașină de vectori de suport
- KNN p-Algebră și minerit vertical
- Rețea neurală
- Problema variabilelor mari în Date Mari - Pădure aleatoare (RF)
- Problema de automatizare a Datelor Mari - Ansamblu multi-model RF
- Automatizare prin Soft10-M
- Instrument de analiză textuală - Treeminer
- Învățare agilă
- Învățare bazată pe agenți
- Învățare distribuită
- Introducere în instrumente open source pentru analize predictive: R, Rapidminer, Mahout
Ziua 2: Sesiunea 4 Ecosistemul analizelor predictive-2: Probleme comune de analiză predictive în Guvern
- Analiză de insight
- Analiză de vizualizare
- Analiză predictivă structurată
- Analiză predictivă nestructurată
- Profilarea amenințărilor/fraudelor/furnizorilor
- Motor de recomandare
- Detecția de modele
- Descoperirea regulilor/scenariilor - eșec, fraudă, optimizare
- Descoperirea cauzei de bază
- Analiza sentimentelor
- Analiză CRM
- Analiză de rețea
- Analiză textuală
- Revizuire asistată tehnologic
- Analiză de fraudă
- Analiză în timp real
Ziua 3: Sesiunea 1: Analiză în timp real și scalabilă peste Hadoop
- De ce algoritmii comuni de analiză eșuează în Hadoop/HDFS
- Apache Hama - pentru calcul distribuit sincron
- Apache SPARK - pentru calcul în cluster pentru analiză în timp real
- CMU Graphics Lab2 - abordare asincronă bazată pe grafice pentru calcul distribuit
- Abordare bazată pe KNN p-Algebră de la Treeminer pentru costuri reduse de hardware
Ziua 3: Sesiunea 2: Instrumente pentru eDiscovery și Criminalistică
- eDiscovery pe Date Mari vs. date moștenite - o comparație a costului și performanței
- Codificare predictivă și revizuire asistată tehnologic (TAR)
- Demo live al unui produs TAR (vMiner) pentru a înțelege cum funcționează TAR pentru descoperire mai rapidă
- Indexare mai rapidă prin HDFS - viteza datelor
- Prelucrarea limbajului natural (NLP) - diverse tehnici și produse open source
- eDiscovery în limbi străine - tehnologii pentru prelucrarea limbilor străine
Ziua 3: Sesiunea 3: Inteligența de Business pe Date Mari pentru Securitate Cibernetică - Înțelegerea vederii complete de 360 de grade de la colectarea rapidă a datelor la identificarea amenințărilor
- Înțelegerea elementelor de bază ale analizei de securitate - suprafața de atac, configurarea greșită a securității, apărarea gazdelor
- Infrastructură de rețea/ Conductă de date mare / ETL de răspuns pentru analiză în timp real
- Prescriptiv vs predictiv - Reguli fixe vs descoperirea automată a regulilor de amenințare din Meta date
Ziua 3: Sesiunea 4: Aplicații ale Datelor Mari în USDA: Agricultură
- Introducere în IoT (Internetul Obiectelor) pentru agricultură - Date Mari bazate pe senzori și control
- Introducere în imaginile din satelit și aplicațiile lor în agricultură
- Integrarea datelor de senzori și imagini pentru fertilitatea solului, recomandări de cultivare și prognoză
- Asigurări agricole și Date Mari
- Prognoza pierderilor de recoltă
Ziua 4: Sesiunea 1: Prevenirea fraudelor prin Inteligența de Business pe Date Mari în Guvern - Analiză de fraudă:
- Clasificarea de bază a analizei de fraudă - bazată pe reguli vs analiză predictivă
- Învățare automată supervizată vs nesupervizată pentru detectarea modelelor de fraudă
- Frauda furnizorilor/suprafacturarea proiectelor
- Frauda Medicare și Medicaid - tehnici de detectare a fraudelor pentru procesarea cererilor
- Fraudele de rambursare a călătoriilor
- Fraudele de rambursare a IRS
- Studii de caz și demo live vor fi prezentate acolo unde datele sunt disponibile.
Ziua 4: Sesiunea 2: Analiză de Social Media - Colectarea și analiza de informații
- API ETL pentru Date Mari pentru extragerea datelor de social media
- Text, imagine, meta date și video
- Analiza sentimentelor din fluxurile de social media
- Filtrarea contextuală și necontextuală a fluxurilor de social media
- Tablou de bord de social media pentru integrarea diverselor platforme de social media
- Profilarea automată a profilurilor de social media
- Demo live al fiecărei analize va fi prezentat prin instrumentul Treeminer.
Ziua 4: Sesiunea 3: Analiză de Date Mari în procesarea imaginilor și fluxurilor video
- Tehnici de stocare a imaginilor în Date Mari - Soluții de stocare pentru date care depășesc petabyte
- LTFS și LTO
- GPFS-LTFS (Soluție de stocare stratificată pentru imagini mari)
- Fundamentele analizei imaginilor
- Recunoașterea obiectelor
- Segmentarea imaginilor
- Urmărirea mișcării
- Reconstrucția 3-D a imaginilor
Ziua 4: Sesiunea 4: Aplicații ale Datelor Mari în NIH:
- Domenii emergente ale Bioinformaticii
- Metagenomica și problemele de minerit a Datelor Mari
- Analiza predictivă a Datelor Mari pentru Farmacogenomică, Metabolomică și Proteomică
- Date Mari în procesul de genomică downstream
- Aplicația analizei predictive a Datelor Mari în Sănătatea Publică
Tablou de bord pentru Date Mari pentru acces rapid la diverse date și afișare:
- Integrarea platformei de aplicații existente cu Tabloul de bord pentru Date Mari
- Managementul Datelor Mari
- Studiu de caz al Tabloului de bord pentru Date Mari: Tableau și Pentaho
- Utilizarea aplicației pentru Date Mari pentru a oferi servicii bazate pe locație în Guvern.
- Sistem de urmărire și management
Ziua 5: Sesiunea 1: Cum să justifici implementarea Inteligenței de Business pe Date Mari într-o organizație:
- Definirea ROI pentru implementarea Datelor Mari
- Studii de caz pentru economisirea timpului analiștilor pentru colectarea și pregătirea datelor - creșterea productivității
- Studii de caz pentru câștiguri de venit din economisirea costurilor bazelor de date licențiate
- Câștiguri de venit din serviciile bazate pe locație
- Economii din prevenirea fraudelor
- O abordare integrată de foaie de calcul pentru a calcula aproximativ cheltuielile vs. câștigurile/economiile din implementarea Datelor Mari.
Ziua 5: Sesiunea 2: Procedura pas cu pas pentru înlocuirea sistemului de date moștenit cu un sistem de Date Mari:
- Înțelegerea drumului practic de migrare a Datelor Mari
- Ce informații importante sunt necesare înainte de a proiecta o implementare a Datelor Mari
- Care sunt diferitele moduri de calcul al volumului, vitezei, varietății și veracității datelor
- Cum se estimează creșterea datelor
- Studii de caz
Ziua 5: Sesiunea 4: Recenzie a furnizorilor de Date Mari și recenzie a produselor lor. Sesiune de Întrebări și Răspunsuri:
- Accenture
- APTEAN (Fostul CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Fostul 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Parte din EMC)
Cerințe
- Cunoștințe de bază despre operațiunile de business și sistemele de date în domeniul guvernamental
- Înțelegere de bază a SQL/Oracle sau a bazelor de date relaționale
- Înțelegere de bază a Statisticii (la nivel de foaie de calcul)
35 Ore
Mărturii (1)
Abilitatea formatorului de a alinia cursul cu cerințele organizației, mai presus de a-l oferi doar pentru a îl prelua.
Masilonyane - Revenue Services Lesotho
Curs - Big Data Business Intelligence for Govt. Agencies
Tradus de catre o masina