Schița de curs

Fiecare sesiune este de 2 ore

Ziua 1: Sesiunea -1: Business Prezentare generală a motivului Big Data Business Inteligența în Govt.

  • Studii de caz de la NIH, DoE
  • Big Data rata de adaptare în Govt. Agențiile și modul în care își aliniază operațiunile viitoare în jurul Big Data Predictive Analytics
  • Zona de aplicare la scară largă în DoD, NSA, IRS, USDA etc.
  • Interfața Big Data cu date Legacy
  • Cunoașterea de bază a tehnologiilor abilitante în analiza predictivă
  • Data Integration și Vizualizare tablou de bord
  • Managementul fraudei
  • Business Regulă/ Generarea de detectare a fraudei
  • Detectarea amenințărilor și profilarea
  • Analiza cost-beneficiu pentru implementarea Big Data.

Ziua 1: Sesiunea-2: Introducere a Big Data-1

  • Principalele caracteristici ale Big Data-volum, varietate, viteză și veridicitate. Arhitectură MPP pentru volum.
  • Data Warehouses – schemă statică, set de date care evoluează lent
  • MPP Database precum Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Hadoop Soluții bazate – nu există condiții privind structura setului de date.
  • Model tipic: HDFS, MapReduce (crunch), preluare din HDFS
  • Lot - potrivit pentru analitice/non-interactive
  • Volum: date în flux CEP
  • Alegeri tipice – produse CEP (de exemplu, Infostreams, Apama, MarkLogic etc.)
  • Mai puțin gata de producție – Storm/S4
  • NoSQL Databases – (columnar și cheie-valoare): Cel mai potrivit ca adjuvant analitic la depozitul de date/baza de date

Ziua 1: Sesiunea -3: Introducere în Big Data-2

NoSQL soluții

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Magazin KV (ierarhic) - GT.m, Cache
  • Magazin KV (comandat) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Magazin Tuple - Gigaspaces, Coord, Apache River
  • Obiect Database - ZopeDB, DB40, Shoal
  • Magazin de documente - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Varietăți de date: Introducere la Data Cleaning problema în Big Data

  • RDBMS – structură/schemă statică, nu promovează mediul agil, explorator.
  • NoSQL – semi-structurat, suficientă structură pentru a stoca date fără schema exactă înainte de stocarea datelor
  • Probleme de curățare a datelor

Ziua-1: Sesiunea-4: Big Data Introducere-3: Hadoop

  • Când să selectați Hadoop?
  • STRUCTURAT - Depozitele/bazele de date ale întreprinderii pot stoca date masive (cu un cost), dar impun o structură (nu este bună pentru explorarea activă)
  • Date SEMI STRUCTURATE – greu de făcut cu soluțiile tradiționale (DW/DB)
  • Datele de depozitare = efort URIAȘ și statice chiar și după implementare
  • Pentru varietate și volum de date, bazate pe hardware-ul de bază – HADOOP
  • H/W mărfurilor necesare pentru a crea un Hadoop Cluster

Introducere în Map Reduce /HDFS

  • MapReduce – distribuiți calcularea pe mai multe servere
  • HDFS – pune datele disponibile local pentru procesul de calcul (cu redundanță)
  • Date – pot fi nestructurate/fără schemă (spre deosebire de RDBMS)
  • Responsabilitatea dezvoltatorului de a da sens datelor
  • Programming MapReduce = lucrul cu Java (pro/contra), încărcarea manuală a datelor în HDFS

Ziua 2: Sesiunea 1: Big Data Construirea ecosistemului Big Data ETL: universul Big Data Instrumente-care să folosiți și când?

  • Hadoop vs. Alte NoSQL soluții
  • Pentru acces interactiv, aleatoriu la date
  • Hbase (bază de date orientată pe coloane) deasupra Hadoop
  • Acces aleatoriu la date, dar restricții impuse (maxim 1 PB)
  • Nu este bun pentru analize ad-hoc, bun pentru înregistrare, numărare, serii cronologice
  • Sqoop - Import din baze de date în Hive sau HDFS (acces JDBC/ODBC)
  • Flume – Flux de date (de exemplu, date de jurnal) în HDFS

Ziua 2: Sesiunea 2: Big Data Management Sistem

  • Piese în mișcare, nodurile de calcul pornesc/eșuează :ZooKeeper - Pentru servicii de configurare/coordonare/denumire
  • Conductă/flux de lucru complex: Oozie – gestionați fluxul de lucru, dependențele, lanțul în margaretă
  • Implementează, configura, gestionează cluster, upgrade etc (administrator de sistem): Ambari
  • În cloud: Whirr

Ziua 2: Sesiunea 3: Analiza predictivă în Business Inteligență -1: Tehnici fundamentale și BI bazat pe învățarea automată:

  • Introducere în învățarea automată
  • Învățarea tehnicilor de clasificare
  • Fișier de antrenament de pregătire Bayesian Prediction
  • Suport Vector Machine
  • KNN p-Tree Algebra și minerit vertical
  • Retea neurala
  • Big Data problemă cu variabile mari - Pădure aleatoare (RF)
  • Big Data Problemă de automatizare – Ansamblu multimodel RF
  • Automatizare prin Soft10-M
  • Instrument de analiză a textului - Treemer
  • Agile învăţare
  • Învățare bazată pe agenți
  • Învățare distribuită
  • Introducere în instrumente open source pentru analiză predictivă: R, Rapidminer, Mahut

Ziua-2: Sesiunea-4 Ecosistemul de analiză predictivă-2: Probleme comune de analiză predictivă în Govt.

  • Insight analitic
  • Analiza vizualizării
  • Analitică predictivă structurată
  • Analiză predictivă nestructurată
  • Profilare amenințări/fraudstar/furnizor
  • Motor de recomandare
  • Detectarea modelelor
  • Descoperirea regulilor/scenariului – eșec, fraudă, optimizare
  • Descoperirea cauzei fundamentale
  • Analiza sentimentelor
  • CRM analitic
  • Analiza rețelei
  • Analiza textului
  • Analiza asistată de tehnologie
  • Analiza fraudelor
  • Analitică în timp real

Ziua 3: Sesiunea-1: Timp real și Scalaanalitic abil peste Hadoop

  • De ce eșuează algoritmii analitici obișnuiți în Hadoop/HDFS
  • Apache Hama- pentru calculul distribuit sincron în bloc
  • Apache SPARK- pentru calcularea cluster pentru analiză în timp real
  • CMU Graphics Lab2 - Abordare asincronă bazată pe grafice pentru calculul distribuit
  • Abordare bazată pe KNN p-Algebra de la Treeminer pentru costuri reduse de operare hardware

Ziua 3: Sesiunea 2 : Instrumente pentru eDiscovery și criminalistică

  • eDiscovery peste Big Data vs. date vechi – o comparație între costuri și performanță
  • Codare predictivă și revizuire asistată de tehnologie (TAR)
  • Demo live a unui produs Tar (vMiner) pentru a înțelege cum funcționează TAR pentru o descoperire mai rapidă
  • Indexare mai rapidă prin HDFS – viteza datelor
  • NLP sau procesarea limbajului natural – diverse tehnici și produse open source
  • eDiscovery în limbi străine-tehnologie pentru prelucrarea limbilor străine

Ziua 3: Sesiunea 3: Big Data BI pentru Cyber Security – Înțelegerea vederilor întregi la 360 de grade ale colectării rapide a datelor pentru identificarea amenințărilor

  • Înțelegerea elementelor de bază ale analizei de securitate - suprafața de atac, configurarea greșită a securității, apărarea gazdei
  • Infrastructură de rețea/ Conductă mare de date/ ETL de răspuns pentru analiză în timp real
  • Prescriptiv vs predictiv – Remediu bazat pe reguli vs descoperire automată a regulilor de amenințare din metadate

Ziua 3: Sesiunea 4: Big Data în USDA: Aplicație în agricultură

  • Introducere în IoT (Internet of Things) pentru agricultura bazată pe senzori Big Data și control
  • Introducere în imagistica prin satelit și aplicarea acesteia în agricultură
  • Integrarea senzorilor și a datelor de imagine pentru fertilitatea solului, recomandarea cultivării și prognoza
  • asigurări agricole și Big Data
  • Prognoza pierderii culturilor

Ziua 4: Sesiunea 1: BI pentru prevenirea fraudei de la Big Data în Govt-Analitica fraudei:

  • Clasificarea de bază a analizei fraudelor - bazate pe reguli vs analize predictive
  • Învățare automată supravegheată versus nesupravegheată pentru detectarea modelelor de fraudă
  • Frauda de la furnizor/supra taxare pentru proiecte
  • Tehnici de detectare a fraudei Medicare și Medicaid pentru procesarea cererilor
  • Fraude de rambursare de călătorie
  • Fraude de rambursare IRS
  • Studiile de caz și demonstrațiile live vor fi oferite oriunde sunt disponibile date.

Ziua 4: Sesiunea 2: Social Media Analitic- Colectare și analiză de informații

  • Big Data ETL API pentru extragerea datelor din rețelele sociale
  • Text, imagine, metadate și video
  • Analiza sentimentelor din feedul social media
  • Filtrarea contextuală și non-contextuală a fluxului de rețele sociale
  • Social Media Tabloul de bord pentru a integra diverse rețele sociale
  • Profilarea automată a profilului rețelelor sociale
  • Demo live a fiecărei analize va fi oferită prin Treeminer Tool.

Ziua 4: Sesiunea 3: Big Data Analitică în procesarea imaginilor și a fluxurilor video

  • Tehnici de stocare a imaginilor în Big Data - Soluție de stocare pentru date care depășesc petabytes
  • LTFS și LTO
  • GPFS-LTFS (Soluție de stocare stratificată pentru date mari de imagine)
  • Fundamentele analizei imaginii
  • Recunoașterea obiectelor
  • Segmentarea imaginii
  • Urmărirea mișcării
  • Reconstituirea imaginii 3-D

Ziua 4: Sesiunea 4: Big Data aplicații în NIH:

  • Domenii emergente ale Bio-informaticii
  • Meta-genomica și Big Data probleme de minerit
  • Big Data Analitică predictivă pentru farmacogenomică, metabolomică și proteomică
  • Big Data în procesul Genomics din aval
  • Aplicarea analizei predictive de date mari în sănătatea publică

Big Data Tabloul de bord pentru acces rapid la diverse date și afișare:

  • Integrarea platformei de aplicații existente cu Big Data Dashboard
  • Big Data management
  • Studiu de caz pentru Big Data Tabloul de bord: Tableau și Pentaho
  • Utilizați aplicația Big Data pentru a împinge servicii bazate pe locație în Govt.
  • Sistem de urmărire și management

Ziua 5: Sesiunea 1: Cum se justifică Big Data implementarea BI în cadrul unei organizații:

  • Definirea ROI pentru implementarea Big Data.
  • Studii de caz pentru economisirea timpului analistului pentru colectarea și pregătirea datelor – creșterea creșterii productivității
  • Studii de caz privind câștigul de venituri din economisirea costului bazei de date licențiate
  • Câștig de venituri din serviciile bazate pe locație
  • Salvarea de la prevenirea fraudei
  • O abordare integrată a foii de calcul pentru a calcula cca. Cheltuieli vs. Câștig/economii de venituri din implementarea Big Data.

Ziua-5: Sesiunea-2: Procedura pas cu pas pentru a înlocui sistemul de date vechi cu Big Data Sistem:

  • Înțelegerea practicii Big Data Foaia de parcurs pentru migrație
  • Care sunt informațiile importante necesare înainte de a proiecta o implementare Big Data.
  • Care sunt diferitele moduri de a calcula volumul, viteza, varietatea și veridicitatea datelor
  • Cum se estimează creșterea datelor
  • Studii de caz

Ziua 5: Sesiunea 4: Revizuirea Big Data furnizorilor și revizuirea produselor lor. Sesiune Q/A:

  • Accenture
  • APTEAN (fost CDC Software)
  • Cisco Sisteme
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Anterior 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Cuantic
  • Rackspace
  • Revoluție Analytics
  • Salesforce
  • SAP
  • SAS Institutul
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Gândiți-vă la Big Analytics
  • Sisteme Tidemark
  • Arboritorul
  • VMware (parte a EMC)

Cerințe

  • Cunoștințe de bază despre funcționarea afacerilor și sistemele de date din Guvern în domeniul lor
  • .
  • Cunoștințe de bază de SQL/Oracle sau baze de date relaționale
  • .
  • Înțelegere de bază a Statistics (la nivel de foaie de calcul) 
  • .
 35 ore

Numărul de participanți


Pret per participant

Mărturii (4)

Categorii înrudite