Schița de curs
=====
Ziua 01
=====
Prezentare generală a Big Data Business Intelligence for Criminal Intelligence Analysis
- Studii de caz de la forțele de ordine - Poliție predictivă
- Big Data rata de adoptare în agențiile de aplicare a legii și modul în care acestea își aliniază operațiunile viitoare în jurul Big Data Predictive Analytics
- Soluții tehnologice emergente, cum ar fi senzori de împușcături, videoclipuri de supraveghere și rețele sociale
- Utilizarea tehnologiei Big Data pentru a atenua supraîncărcarea de informații
- Interfața Big Data cu date Legacy
- Cunoașterea de bază a tehnologiilor abilitante în analiza predictivă
- Data Integration & Vizualizare tablou de bord
- Managementul fraudei
- Business Reguli și detectarea fraudelor
- Detectarea amenințărilor și profilarea
- Analiza cost-beneficiu pentru implementare Big Data.
Introducere în Big Data
- Principalele caracteristici ale Big Data -- Volumul, Varietatea, Viteza și Veracitatea.
- Arhitectură MPP (Massively Parallel Processing).
- Data Warehouses – schemă statică, set de date care evoluează lent
- MPP Database: Greenplum, Exadata, Teradata, Netezza, Vertica etc.
- Hadoop Soluții bazate – nu există condiții privind structura setului de date.
- Model tipic: HDFS, MapReduce (crunch), preluare din HDFS
- Apache Spark pentru procesarea fluxului
- Lot - potrivit pentru analitice/non-interactive
- Volum: date în flux CEP
- Alegeri tipice – produse CEP (de exemplu, Infostreams, Apama, MarkLogic etc.)
- Mai puțin gata de producție – Storm/S4
- NoSQL Databases – (columnar și cheie-valoare): Cel mai potrivit ca adjuvant analitic la depozitul de date/baza de date
NoSQL soluții
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, Oracle NoSQL Database (OnDB)
- KV Store - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- Magazin KV (ierarhic) - GT.m, Cache
- Magazin KV (comandat) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Magazin Tuple - Gigaspaces, Coord, Apache River
- Obiect Database - ZopeDB, DB40, Shoal
- Magazin de documente - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, XML-Databases, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Wide Columnar Store - BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Varietăți de date: Introducere la Data Cleaning probleme în Big Data
- RDBMS – structură/schemă statică, nu promovează mediul agil, explorator.
- NoSQL – semi-structurat, structură suficientă pentru a stoca date fără schema exactă înainte de stocarea datelor
- Probleme de curățare a datelor
Hadoop
- Când să selectați Hadoop?
- STRUCTURAT - Depozitele/bazele de date ale întreprinderii pot stoca date masive (cu un cost), dar impun o structură (nu este bună pentru explorarea activă)
- Date SEMI STRUCTURATE – dificil de realizat folosind soluții tradiționale (DW/DB)
- Datele de depozitare = efort URIAȘ și statice chiar și după implementare
- Pentru varietate și volum de date, bazate pe hardware-ul de bază – HADOOP
- H/W mărfurilor necesare pentru a crea un Hadoop Cluster
Introducere în Map Reduce /HDFS
- MapReduce – distribuiți calcularea pe mai multe servere
- HDFS – pune datele disponibile local pentru procesul de calcul (cu redundanță)
- Date – pot fi nestructurate/fără schemă (spre deosebire de RDBMS)
- Responsabilitatea dezvoltatorului de a da sens datelor
- Programming MapReduce = lucrul cu Java (pro/contra), încărcarea manuală a datelor în HDFS
=====
Ziua 02
=====
Big Data Ecosistem -- Construire Big Data ETL (Extract, Transform, Load) -- Ce Big Data Instrumente să utilizați și când?
- Hadoop vs. Alte NoSQL soluții
- Pentru acces interactiv, aleatoriu la date
- Hbase (bază de date orientată pe coloane) deasupra Hadoop
- Acces aleatoriu la date, dar restricții impuse (maxim 1 PB)
- Nu este bun pentru analize ad-hoc, bun pentru înregistrare, numărare, serii cronologice
- Sqoop - Import din baze de date în Hive sau HDFS (acces JDBC/ODBC)
- Flume – Flux de date (de exemplu, date de jurnal) în HDFS
Big Data Management Sistem
- Piese în mișcare, nodurile de calcul pornesc/eșuează :ZooKeeper - Pentru servicii de configurare/coordonare/denumire
- Conductă/flux de lucru complex: Oozie – gestionați fluxul de lucru, dependențele, lanțul în margaretă
- Implementează, configura, gestionează cluster, upgrade etc (administrator de sistem): Ambari
- În cloud: Whirr
Predictive Analytics -- Tehnici fundamentale și Machine Learning bazate pe Business Inteligență
- Introducere în Machine Learning
- Învățarea tehnicilor de clasificare
- Predicția Bayesiană -- pregătirea unui fișier de antrenament
- Suport Vector Machine
- KNN p-Tree Algebra și minerit vertical
- Neural Networks
- Big Data problemă cu variabile mari -- Pădure aleatoare (RF)
- Big Data Problemă de automatizare – Ansamblu multimodel RF
- Automatizare prin Soft10-M
- Instrument de analiză a textului - Treemer
- Agile învăţare
- Învățare bazată pe agenți
- Învățare distribuită
- Introducere în instrumentele open source pentru analiză predictivă: R, Python, Rapidminer, Mahut
Predictive Analytics Ecosistemul și aplicarea acestuia în analiza criminalității
- Tehnologia și procesul de investigare
- Insight analitic
- Analiza vizualizării
- Analiză predictivă structurată
- Analiză predictivă nestructurată
- Profilare amenințări/fraudstar/furnizor
- Motor de recomandare
- Detectarea modelelor
- Descoperirea regulilor/scenariului – eșec, fraudă, optimizare
- Descoperirea cauzei fundamentale
- Analiza sentimentelor
- Analiza CRM
- Analiza rețelei
- Analiza textului pentru obținerea de informații din stenograme, declarații ale martorilor, discuții pe internet etc.
- Analiza asistată de tehnologie
- Analiza fraudelor
- Analitică în timp real
=====
Ziua 03
=====
În timp real și Scalaanalitice compatibile peste Hadoop
- De ce algoritmii analitici comuni eșuează în Hadoop/HDFS
- Apache Hama- pentru calculul distribuit sincron în bloc
- Apache SPARK- pentru calculul cluster și analiza în timp real
- CMU Graphics Lab2 - Abordare asincronă bazată pe grafice pentru calculul distribuit
- KNN p -- Abordare bazată pe algebră de la Treeminer pentru costuri reduse de operare hardware
Instrumente pentru eDiscovery și criminalistică
- eDiscovery peste Big Data vs. date vechi – o comparație între costuri și performanță
- Codare predictivă și evaluare asistată de tehnologie (TAR)
- Demo live a vMiner pentru a înțelege modul în care TAR permite o descoperire mai rapidă
- Indexare mai rapidă prin HDFS – Viteza datelor
- NLP (Procesarea limbajului natural) – produse și tehnici open source
- eDiscovery în limbi străine -- tehnologie pentru procesarea limbilor străine
Big Data BI pentru Cyber Security – Obținerea unei vizualizări la 360 de grade, colectarea rapidă a datelor și identificarea amenințărilor
- Înțelegerea elementelor de bază ale analizei de securitate - suprafața de atac, configurarea greșită a securității, apărarea gazdei
- Infrastructură de rețea / Conductă mare de date / ETL de răspuns pentru analiză în timp real
- Prescriptiv vs predictiv – Remediu bazat pe reguli vs descoperire automată a regulilor de amenințare din metadate
Colectarea de date disparate pentru analiza de informații penale
- Utilizarea IoT (Internet of Things) ca senzori pentru captarea datelor
- Utilizarea imaginilor din satelit pentru supravegherea internă
- Utilizarea datelor de supraveghere și imagini pentru identificarea penală
- Alte tehnologii de colectare a datelor -- drone, camere corporale, sisteme de etichetare GPS și tehnologie de imagistică termică
- Combinând recuperarea automată a datelor cu datele obținute de la informatori, interogatori și cercetări
- Forecasting activitate criminală
=====
Ziua 04
=====
BI pentru prevenirea fraudei de la Big Data în Fraud Analytics
- Clasificarea de bază a analizei fraudelor -- analiză bazată pe reguli vs analiză predictivă
- Învățare automată supravegheată versus nesupravegheată pentru detectarea modelelor de fraudă
- Business la fraudă în afaceri, fraudă privind daunele medicale, fraudă în asigurări, evaziune fiscală și spălare de bani
Social Media Analytics -- Colectarea și analiza informațiilor
- Cum Social Media este folosit de criminali pentru a organiza, recruta și planifica
- Big Data ETL API pentru extragerea datelor din rețelele sociale
- Text, imagine, metadate și video
- Analiza sentimentelor din feedul social media
- Filtrarea contextuală și non-contextuală a fluxului de rețele sociale
- Social Media Tabloul de bord pentru a integra diverse rețele sociale
- Profilarea automată a profilului rețelelor sociale
- Demo live a fiecărei analize va fi oferită prin Treeminer Tool
Big Data Analize în procesarea imaginilor și a fluxurilor video
- Tehnici de stocare a imaginilor în Big Data -- Soluție de stocare pentru date care depășesc petabytes
- LTFS (Linear Tape File System) și LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) - soluție de stocare stratificată pentru date mari imagini
- Fundamentele analizei imaginilor
- Recunoașterea obiectelor
- Segmentarea imaginii
- Urmărirea mișcării
- Reconstituirea imaginii 3-D
Biometrice, ADN și programe de identificare de generație următoare
- Dincolo de amprentarea și recunoașterea facială
- Recunoașterea vorbirii, apăsarea tastei (analizarea unui model de tastare al utilizatorilor) și CODIS (sistemul de index ADN combinat)
- Dincolo de potrivirea ADN: utilizarea fenotipării ADN-ului criminalistic pentru a construi o față din probe de ADN
Big Data Tabloul de bord pentru acces rapid la diverse date și afișare:
- Integrarea platformei de aplicații existente cu Big Data Dashboard
- Big Data management
- Studiu de caz pentru Big Data Tabloul de bord: Tableau și Pentaho
- Utilizați aplicația Big Data pentru a împinge servicii bazate pe locație în Govt.
- Sistem de urmărire și management
=====
Ziua 05
=====
Cum se justifică Big Data implementarea BI în cadrul unei organizații:
- Definirea ROI (Return on Investment) pentru implementarea Big Data
- Studii de caz pentru economisirea timpului analistului în colectarea și pregătirea datelor – creșterea productivității
- Câștig de venituri din costuri mai mici de licențiere a bazei de date
- Câștig de venituri din serviciile bazate pe locație
- Economii de costuri din prevenirea fraudei
- O abordare integrată a foii de calcul pentru calcularea cheltuielilor aproximative în raport cu câștigul/economiile veniturilor din implementarea Big Data.
Procedura pas cu pas pentru înlocuirea unui sistem de date vechi cu un sistem Big Data.
- Big Data Foaia de parcurs pentru migrație
- Ce informații critice sunt necesare înainte de a proiecta un sistem Big Data?
- Care sunt diferitele moduri de calculare a volumului, vitezei, varietății și veridicității datelor
- Cum se estimează creșterea datelor
- Studii de caz
Revizuirea Big Data vânzătorilor și revizuirea produselor lor.
- Accenture
- APTEAN (fost CDC Software)
- Cisco Sisteme
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Anterior 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Cuantic
- Rackspace
- Revoluție Analytics
- Salesforce
- SAP
- SAS Institutul
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Gândiți-vă la Big Analytics
- Sisteme Tidemark
- Arboritorul
- VMware (parte a EMC)
Sesiune Q/A
Cerințe
- Cunoașterea proceselor de aplicare a legii și a sistemelor de date
- Înțelegere de bază a SQL/Oracle sau a unei baze de date relaționale
- Înțelegere de bază a statisticilor (la nivel de foaie de calcul) .
Mărturii (4)
Data management, reporting and statistics concepts.
Dumisani - Interfront SOC Ltd
Curs - Stata: Beginner to Advanced
Împărtășiți un exemplu de aplicație
Curs - Alteryx for Data Analysis
Tradus de catre o masina
Very clearly articulated and explained
Harshit Arora - PwC South East Asia Consulting
Curs - Alteryx for Developers
Linear regression - the algorithm to predict the trend