Schița de curs

=====
Ziua 01
=====
Prezentare generală a Big Data Business Intelligence for Criminal Intelligence Analysis

  • Studii de caz de la forțele de ordine - Poliție predictivă
  • Big Data rata de adoptare în agențiile de aplicare a legii și modul în care acestea își aliniază operațiunile viitoare în jurul Big Data Predictive Analytics
  • Soluții tehnologice emergente, cum ar fi senzori de împușcături, videoclipuri de supraveghere și rețele sociale
  • Utilizarea tehnologiei Big Data pentru a atenua supraîncărcarea de informații
  • Interfața Big Data cu date Legacy
  • Cunoașterea de bază a tehnologiilor abilitante în analiza predictivă
  • Data Integration & Vizualizare tablou de bord
  • Managementul fraudei
  • Business Reguli și detectarea fraudelor
  • Detectarea amenințărilor și profilarea
  • Analiza cost-beneficiu pentru implementare Big Data.

Introducere în Big Data

  • Principalele caracteristici ale Big Data -- Volumul, Varietatea, Viteza și Veracitatea.
  • Arhitectură MPP (Massively Parallel Processing).
  • Data Warehouses – schemă statică, set de date care evoluează lent
  • MPP Database: Greenplum, Exadata, Teradata, Netezza, Vertica etc.
  • Hadoop Soluții bazate – nu există condiții privind structura setului de date.
  • Model tipic: HDFS, MapReduce (crunch), preluare din HDFS
  • Apache Spark pentru procesarea fluxului
  • Lot - potrivit pentru analitice/non-interactive
  • Volum: date în flux CEP
  • Alegeri tipice – produse CEP (de exemplu, Infostreams, Apama, MarkLogic etc.)
  • Mai puțin gata de producție – Storm/S4
  • NoSQL Databases – (columnar și cheie-valoare): Cel mai potrivit ca adjuvant analitic la depozitul de date/baza de date

NoSQL soluții

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
  • KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • Magazin KV (ierarhic) - GT.m, Cache
  • Magazin KV (comandat) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Magazin Tuple - Gigaspaces, Coord, Apache River
  • Obiect Database - ZopeDB, DB40, Shoal
  • Magazin de documente - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Varietăți de date: Introducere la Data Cleaning probleme în Big Data

  • RDBMS – structură/schemă statică, nu promovează mediul agil, explorator.
  • NoSQL – semi-structurat, structură suficientă pentru a stoca date fără schema exactă înainte de stocarea datelor
  • Probleme de curățare a datelor

Hadoop

  • Când să selectați Hadoop?
  • STRUCTURAT - Depozitele/bazele de date ale întreprinderii pot stoca date masive (cu un cost), dar impun o structură (nu este bună pentru explorarea activă)
  • Date SEMI STRUCTURATE – dificil de realizat folosind soluții tradiționale (DW/DB)
  • Datele de depozitare = efort URIAȘ și statice chiar și după implementare
  • Pentru varietate și volum de date, bazate pe hardware-ul de bază – HADOOP
  • H/W mărfurilor necesare pentru a crea un Hadoop Cluster

Introducere în Map Reduce /HDFS

  • MapReduce – distribuiți calcularea pe mai multe servere
  • HDFS – pune datele disponibile local pentru procesul de calcul (cu redundanță)
  • Date – pot fi nestructurate/fără schemă (spre deosebire de RDBMS)
  • Responsabilitatea dezvoltatorului de a da sens datelor
  • Programming MapReduce = lucrul cu Java (pro/contra), încărcarea manuală a datelor în HDFS

=====
Ziua 02
=====
Big Data Ecosistem -- Construire Big Data ETL (Extract, Transform, Load) -- Ce Big Data Instrumente să utilizați și când?

  • Hadoop vs. Alte NoSQL soluții
  • Pentru acces interactiv, aleatoriu la date
  • Hbase (bază de date orientată pe coloane) deasupra Hadoop
  • Acces aleatoriu la date, dar restricții impuse (maxim 1 PB)
  • Nu este bun pentru analize ad-hoc, bun pentru înregistrare, numărare, serii cronologice
  • Sqoop - Import din baze de date în Hive sau HDFS (acces JDBC/ODBC)
  • Flume – Flux de date (de exemplu, date de jurnal) în HDFS

Big Data Management Sistem

  • Piese în mișcare, nodurile de calcul pornesc/eșuează :ZooKeeper - Pentru servicii de configurare/coordonare/denumire
  • Conductă/flux de lucru complex: Oozie – gestionați fluxul de lucru, dependențele, lanțul în margaretă
  • Implementează, configura, gestionează cluster, upgrade etc (administrator de sistem): Ambari
  • În cloud: Whirr

Predictive Analytics -- Tehnici fundamentale și Machine Learning bazate pe Business Inteligență

  • Introducere în Machine Learning
  • Învățarea tehnicilor de clasificare
  • Predicția Bayesiană -- pregătirea unui fișier de antrenament
  • Suport Vector Machine
  • KNN p-Tree Algebra și minerit vertical
  • Neural Networks
  • Big Data problemă cu variabile mari -- Pădure aleatoare (RF)
  • Big Data Problemă de automatizare – Ansamblu multimodel RF
  • Automatizare prin Soft10-M
  • Instrument de analiză a textului - Treemer
  • Agile învăţare
  • Învățare bazată pe agenți
  • Învățare distribuită
  • Introducere în instrumentele open source pentru analiză predictivă: R, Python, Rapidminer, Mahut

Predictive Analytics Ecosistemul și aplicarea acestuia în analiza criminalității

  • Tehnologia și procesul de investigare
  • Insight analitic
  • Analiza vizualizării
  • Analiză predictivă structurată
  • Analiză predictivă nestructurată
  • Profilare amenințări/fraudstar/furnizor
  • Motor de recomandare
  • Detectarea modelelor
  • Descoperirea regulilor/scenariului – eșec, fraudă, optimizare
  • Descoperirea cauzei fundamentale
  • Analiza sentimentelor
  • Analiza CRM
  • Analiza rețelei
  • Analiza textului pentru obținerea de informații din stenograme, declarații ale martorilor, discuții pe internet etc.
  • Analiza asistată de tehnologie
  • Analiza fraudelor
  • Analitică în timp real

=====
Ziua 03
=====
În timp real și Scalaanalitice compatibile peste Hadoop

  • De ce algoritmii analitici comuni eșuează în Hadoop/HDFS
  • Apache Hama- pentru calculul distribuit sincron în bloc
  • Apache SPARK- pentru calculul cluster și analiza în timp real
  • CMU Graphics Lab2 - Abordare asincronă bazată pe grafice pentru calculul distribuit
  • KNN p -- Abordare bazată pe algebră de la Treeminer pentru costuri reduse de operare hardware

Instrumente pentru eDiscovery și criminalistică

  • eDiscovery peste Big Data vs. date vechi – o comparație între costuri și performanță
  • Codare predictivă și evaluare asistată de tehnologie (TAR)
  • Demo live a vMiner pentru a înțelege modul în care TAR permite o descoperire mai rapidă
  • Indexare mai rapidă prin HDFS – Viteza datelor
  • NLP (Procesarea limbajului natural) – produse și tehnici open source
  • eDiscovery în limbi străine -- tehnologie pentru procesarea limbilor străine

Big Data BI pentru Cyber Security – Obținerea unei vizualizări la 360 de grade, colectarea rapidă a datelor și identificarea amenințărilor

  • Înțelegerea elementelor de bază ale analizei de securitate - suprafața de atac, configurarea greșită a securității, apărarea gazdei
  • Infrastructură de rețea / Conductă mare de date / ETL de răspuns pentru analiză în timp real
  • Prescriptiv vs predictiv – Remediu bazat pe reguli vs descoperire automată a regulilor de amenințare din metadate

Colectarea de date disparate pentru analiza de informații penale

  • Utilizarea IoT (Internet of Things) ca senzori pentru captarea datelor
  • Utilizarea imaginilor din satelit pentru supravegherea internă
  • Utilizarea datelor de supraveghere și imagini pentru identificarea penală
  • Alte tehnologii de colectare a datelor -- drone, camere corporale, sisteme de etichetare GPS și tehnologie de imagistică termică
  • Combinând recuperarea automată a datelor cu datele obținute de la informatori, interogatori și cercetări
  • Forecasting activitate criminală

=====
Ziua 04
=====
BI pentru prevenirea fraudei de la Big Data în Fraud Analytics

  • Clasificarea de bază a analizei fraudelor -- analiză bazată pe reguli vs analiză predictivă
  • Învățare automată supravegheată versus nesupravegheată pentru detectarea modelelor de fraudă
  • Business la fraudă în afaceri, fraudă privind daunele medicale, fraudă în asigurări, evaziune fiscală și spălare de bani

Social Media Analytics -- Colectarea și analiza informațiilor

  • Cum Social Media este folosit de criminali pentru a organiza, recruta și planifica
  • Big Data ETL API pentru extragerea datelor din rețelele sociale
  • Text, imagine, metadate și video
  • Analiza sentimentelor din feedul social media
  • Filtrarea contextuală și non-contextuală a fluxului de rețele sociale
  • Social Media Tabloul de bord pentru a integra diverse rețele sociale
  • Profilarea automată a profilului rețelelor sociale
  • Demo live a fiecărei analize va fi oferită prin Treeminer Tool

Big Data Analize în procesarea imaginilor și a fluxurilor video

  • Tehnici de stocare a imaginilor în Big Data -- Soluție de stocare pentru date care depășesc petabytes
  • LTFS (Linear Tape File System) și LTO (Linear Tape Open)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) - soluție de stocare stratificată pentru date mari imagini
  • Fundamentele analizei imaginilor
  • Recunoașterea obiectelor
  • Segmentarea imaginii
  • Urmărirea mișcării
  • Reconstituirea imaginii 3-D

Biometrice, ADN și programe de identificare de generație următoare

  • Dincolo de amprentarea și recunoașterea facială
  • Recunoașterea vorbirii, apăsarea tastei (analizarea unui model de tastare al utilizatorilor) și CODIS (sistemul de index ADN combinat)
  • Dincolo de potrivirea ADN: utilizarea fenotipării ADN-ului criminalistic pentru a construi o față din probe de ADN

Big Data Tabloul de bord pentru acces rapid la diverse date și afișare:

  • Integrarea platformei de aplicații existente cu Big Data Dashboard
  • Big Data management
  • Studiu de caz pentru Big Data Tabloul de bord: Tableau și Pentaho
  • Utilizați aplicația Big Data pentru a împinge servicii bazate pe locație în Govt.
  • Sistem de urmărire și management

=====
Ziua 05
=====
Cum se justifică Big Data implementarea BI în cadrul unei organizații:

  • Definirea ROI (Return on Investment) pentru implementarea Big Data
  • Studii de caz pentru economisirea timpului analistului în colectarea și pregătirea datelor – creșterea productivității
  • Câștig de venituri din costuri mai mici de licențiere a bazei de date
  • Câștig de venituri din serviciile bazate pe locație
  • Economii de costuri din prevenirea fraudei
  • O abordare integrată a foii de calcul pentru calcularea cheltuielilor aproximative în raport cu câștigul/economiile veniturilor din implementarea Big Data.

Procedura pas cu pas pentru înlocuirea unui sistem de date vechi cu un sistem Big Data.

  • Big Data Foaia de parcurs pentru migrație
  • Ce informații critice sunt necesare înainte de a proiecta un sistem Big Data?
  • Care sunt diferitele moduri de calculare a volumului, vitezei, varietății și veridicității datelor
  • Cum se estimează creșterea datelor
  • Studii de caz

Revizuirea Big Data vânzătorilor și revizuirea produselor lor.

  • Accenture
  • APTEAN (fost CDC Software)
  • Cisco Sisteme
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Anterior 10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Cuantic
  • Rackspace
  • Revoluție Analytics
  • Salesforce
  • SAP
  • SAS Institutul
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Gândiți-vă la Big Analytics
  • Sisteme Tidemark
  • Arboritorul
  • VMware (parte a EMC)

Sesiune Q/A

Cerințe

  • Cunoașterea proceselor de aplicare a legii și a sistemelor de date
  • Înțelegere de bază a SQL/Oracle sau a unei baze de date relaționale
  • Înțelegere de bază a statisticilor (la nivel de foaie de calcul)
  • .
 35 ore

Numărul de participanți



Pret per participant

Mărturii (4)

Categorii înrudite