Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.
Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.
Schița de curs
Fiecare sesiune durează 2 ore
Ziua-1: Sesiunea -1: Prezentare generală a Big Data Business Intelligence în guvern
- Studii de caz din NIH, DoE
- Ritmul adoptării Big Data în agenții guvernamentale și cum aliniază operațiile viitoare în jurul analizei predictivă a Big Data
- Aplicații pe scară largă în DoD, NSA, IRS, USDA etc.
- Interfațierea Big Data cu datele legate de sistemul vechi
- Înțelegere basică a tehnologiilor care enablează analiza predictivă
- Integrarea datelor și vizualizarea tabloului de bord
- Gestionarea fraudei
- Generarea regulilor de afaceri / detectare a fraudelor
- Detectarea amenințărilor și profilarea acestora
- Analiza cost-beneficiu pentru implementarea Big Data
Ziua-1: Sesiunea -2: Introducere la Big Data-1
- Principalele caracteristici ale Big Data - volum, varietate, viteză și veridicitate. Arhitectura MPP pentru volum.
- Depozite de date - schemă statică, set de date care se modifică încet
- Baze de date MPP precum Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Soluții bazate pe Hadoop - fără condiții privind structura setului de date.
- Schemă tipică: HDFS, MapReduce (crunch), retragere din HDFS
- Batch - potrivit pentru analiză/interacțiuni neliniare
- Volum: date de flux CEP
- Opțiuni tipice - produse CEP (de exemplu, Infostreams, Apama, MarkLogic etc)
- Mai puțin pregătite pentru producție - Storm/S4
- Baze de date NoSQL (coloane și cheie-valoare): cele mai potrivite ca complement analitic la depozitul de date/baza de date
Ziua-1: Sesiunea -3: Introducere la Big Data-2
Soluții NoSQL
- Magazin KV - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- Magazin KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Magazin KV (ierarhic) - GT.m, Cache
- Magazin KV (ordonat) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- Cache KV - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Magazin Tuple - Gigaspaces, Coord, Apache River
- Bază de date obiect - ZopeDB, DB40, Shoal
- Depozit de documente - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Magazin cu coloane largi - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variațiile de date: Introducere la problemele de curățenie a datelor în Big Data
- RDBMS - structură/statică, nu promovează mediu agil și explorator.
- NoSQL - semi-structurat, suficient de structurat pentru a stoca date fără schema exactă înainte de stocare
- Probleme de curățenie a datelor
Ziua-1: Sesiunea -4: Introducere la Big Data-3: Hadoop
- Când să alegeți Hadoop?
- STRUCTURAT - depozite de date/baze de date enterprise pot stoca massive volume de date (la un preț), dar impun structură (nepotrivit pentru explorarea activă)
- DATE SEMI-STRUCTURATE - dificil de realizat cu soluțiile tradiționale (DW/DB)
- Stocarea datelor = efort ENORM și static chiar după implementare
- Pentru varietatea și volumul datelor, procesate pe hardware comun - HADOOP
- Hardware comun necesar pentru a crea un cluster Hadoop
Introducere la MapReduce/HDFS
- MapReduce - distribuie procesarea pe mai multe servere
- HDFS - face datele disponibile local pentru procesarea (cu redundanță)
- Date - pot fi nestructurate/fără schemă (la fel ca RDBMS)
- Responsabilitatea dezvoltatorului de a interpreta datele
- Programarea MapReduce = lucrul cu Java (avantaje/disavantaje), încărcarea manuală a datelor în HDFS
Ziua-2: Sesiunea -1: Ecosistemul Big Data - Construirea ETL Big Data: universul de instrumente Big Data - cea mai potrivită și când?
- Hadoop vs. alte soluții NoSQL
- Pentru acces interactiv, aleatoriu la date
- Hbase (bază de date orientată pe coloane) peste Hadoop
- Acces aleatoriu la date dar cu restricții impuse (max 1 PB)
- Nerecomandat pentru analiza ad-hoc, potrivit pentru logging, numărare, serie de timp
- Sqoop - Import din baze de date în Hive sau HDFS (acces JDBC/ODBC)
- Flume - Stream de date (de exemplu, date de jurnal) în HDFS
Ziua-2: Sesiunea -2: Sistem de management Big Data
- Parte mobile, noduri compute start/fail: ZooKeeper - pentru servicii de configurare/coordonare/nominație
- Pipeline/flux complex: Oozie - gestionarea fluxului de lucru, dependențiile, lanțare secvențială
- Implementare, configurare, management cluster, upgrade etc (sys admin): Ambari
- În cloud: Whirr
Ziua-2: Sesiunea -3: Analiză predictivă în Business Intelligence -1: Tehnicii fundamentale și BI bazat pe învățare automată:
- Introducere la învățarea automată
- Tehnici de clasificare învățate
- Predicție Bayesiană - pregătirea fișierului de instruire
- Mașina de vectori de sprijin (SVM)
- KNN p-Tree Algebra și mining vertical
- Rețele neurale
- Problema variabilelor mari în Big Data - Random Forest (RF)
- Problema automatizării în Big Data - Ensemble multi-model RF
- Automatizare prin Soft10-M
- Instrument de analiză textuală - Treeminer
- Învățarea agilă
- Învățarea bazată pe agenți
- Învățarea distribuită
- Introducere la instrumente open source pentru analiza predictivă: R, Rapidminer, Mahout
Ziua-2: Sesiunea -4 Ecosistem de analiză predictivă -2: Probleme comune de analiză predictivă în guvern
- Analiză de înțelegere
- Analiză vizuală
- Analiză predictivă structurată
- Analiză predictivă nestructurată
- Profilare a amenințărilor/fraudelor/vanzatorilor
- Motor de recomandări
- Detectarea modelurilor
- Descoperirea regulilor/scenariilor - eșec, frauda, optimizare
- Descoperirea cauzei de bază
- Analiza sentimentelor
- Analiză CRM
- Analiză de rețea
- Analiză textuală
- Revizuire asistată de tehnologie
- Analiză a fraudei
- Analiză în timp real
Ziua-3: Sesiunea -1: Analiză în timp real și scalabilă peste Hadoop
- De ce algoritmii de analiză obișnuiți eșuează în Hadoop/HDFS
- Apache Hama - pentru calcul distribuit sincronizat la scară largă
- Apache SPARK - pentru calcul cluster în timp real
- Laboratorul Grafic CMU2 - abordare asincronă bazată pe grafice la calcul distribuit
- Abordarea KNN p-Algebra din Treeminer pentru reducerea costului hardware de operațiune
Ziua-3: Sesiunea -2: Instrumente pentru eDiscovery și Forensics
- eDiscovery peste Big Data vs. datele vechi - comparație a costului și performanței
- Codificare predictivă și revizuire asistată de tehnologie (TAR)
- Demo live a unui produs TAR (vMiner) pentru a înțelege cum funcționează TAR pentru descoperire mai rapidă
- Indexare mai rapidă prin HDFS - viteză datelor
- NLP sau procesarea limbajului natural - diverse tehnici și produse open source
- eDiscovery în limbi străine - tehnologie pentru procesarea limbilor străine
Ziua-3: Sesiunea 3: Big Data BI pentru securitatea cibernetică - înțelegerea vederii de 360 grade a colectării rapide a datelor până la identificarea amenințărilor
- Înțelegerea bazelor analizei securitare - suprafața de atac, configurarea greșită a securității, defenzele gazdei
- Infrastructura rețelei / tubulaj de date larg / ETL de răspuns pentru analiză în timp real
- Prescriptiv vs predictiv - reguli fixe bazate pe metadate vs descoperirea automată a regulilor amenințării
Ziua-3: Sesiunea 4: Big Data în USDA: Aplicații în agricultură
- Introducere la IoT (Internet of Things) pentru agricultură - Big Data bazat pe senzori și control
- Introducere la imaginea satelitare și aplicațiile sale în agricultură
- Integrarea datelor de senzori și imagini pentru fertilitatea solului, recomandări de culturizare și pronóstic
- Asigurarea agriculturii și Big Data
- Pronosticul pierderilor de recoltă
Ziua-4: Sesiunea -1: BI pentru prevenirea fraudei din Big Data în guvern - Analiză a fraudei:
- Clasificarea de bază a analizei fraudei - bazată pe reguli vs. analiză predictivă
- Învățare supervizată vs. ne-supervizată pentru detectarea modelurilor de fraudă
- Frauda furnizorului / supracostuirea proiectelor
- Fraudă Medicare și Medicaid - tehnici de detectare a fraudei pentru procesarea declarațiilor
- Frauda la rambursările de călătorii
- Fraudă de restituire IRS
- Studii de caz și demo live vor fi prezentate oriunde datele sunt disponibile.
Ziua-4: Sesiunea -2: Analiză social media - colectarea și analiza informațiilor
- API Big Data ETL pentru extragerea datelor de pe platformele sociale
- Text, imagine, metadate și video
- Analiza sentimentului din fluxul social media
- Filtrarea contextuală și necontextuală a fluxului social media
- Tabloul de bord social media pentru integrarea diverselor platforme sociale
- Profilare automată a profilurilor sociale
- Demo live a fiecărei analize vor fi prezentate prin instrumentul Treeminer.
Ziua-4: Sesiunea -3: Analiză Big Data în procesarea imaginilor și feed-urile video
- Tehnici de stocare a imaginilor în Big Data - soluții de stocare pentru date care depășesc petabyte
- LTFS și LTO
- GPFS-LTFS (soluție stratificată de stocare pentru imagini Big Data)
- Fundamentele analizei imaginilor
- Recunoașterea obiectelor
- Segmentarea imaginii
- Urmărirea mișcării
- Reconstrucția imaginei 3D
Ziua-4: Sesiunea -4: Aplicații Big Data în NIH:
- Domeniile emergente ale bioinformaticii
- Meta-genomica și problemele de mining Big Data
- Analiză predictivă Big Data pentru farmacogenomica, metabolomics și proteomica
- Big Data în procesul downstream genomic
- Aplicații ale analizei predictive Big Data în sănătatea publică
Tabloul de bord Big Data pentru accesibilitate rapidă a datelor diverse și afișare:
- Integrarea platformei existente de aplicații cu tabloul de bord Big Data
- Managementul datelor Big Data
- Studiu de caz al tabloului de bord Big Data: Tableau și Pentaho
- Utilizarea aplicației Big Data pentru a promova serviciile bazate pe locație în guvern
- Sistem de urmărire și management
Ziua-5: Sesiunea -1: Cum justifica implementarea BI Big Data într-o organizație:
- Definirea ROI pentru implementarea Big Data
- Studii de caz pentru economisirea timpului analiștilor la colectarea și pregătirea datelor - creșterea productivității
- Studii de caz privind câștigul de venituri prin economisirea costurilor licenței bazei de date
- Câștig de venituri din serviciile bazate pe locație
- Economisire prin prevenirea fraudei
- O abordare integrată în fișiere Excel pentru a calcula aproximativ cheltuielile vs. câștigul/sconomisi de venituri din implementarea Big Data.
Ziua-5: Sesiunea -2: Procedura pas cu pas pentru înlocuirea sistemului de date vechi cu sistemul Big Data:
- Înțelegerea planului practic de migrație Big Data
- Ce informații importante sunt necesare înainte de arhitectura implementării Big Data
- Diferite modalități de calcul al volumului, vitezei, varietății și veridicității datelor
- Cum se estimează creșterea datelor
- Studii de caz
Ziua-5: Sesiunea -4: Revizuirea furnizorilor Big Data și a produselor lor. Sesión Q&A:
- Accenture
- APTEAN (Fost CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Fost 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Parte a EMC)
Cerințe
- Cunoștințe de bază despre operațiunile afacerilor și sistemele de date în guvern în domeniul lor
- Înțelegere basică a SQL/Oracle sau bazei de date relaționale
- Înțelegere basică a Statisticii (la nivelul unui fișier Excel)
35 ore
Mărturii (1)
Capacitatea formatorului de a alinia cursul la cerințele organizației și nu doar de a oferi cursul de dragul de a-l oferi.
Masilonyane - Revenue Services Lesotho
Curs - Big Data Business Intelligence for Govt. Agencies
Tradus de catre o masina