Schița de curs

Prezentare generală rapidă

  • Surse de date
  • Minding Data
  • Sisteme de recomandare
  • Țintă Marketing

Tipuri de date

  • Structurat vs nestructurat
  • Static vs transmis în flux
  • Date de atitudine, comportamentale și demografice
  • Analiză bazată pe date vs. analiză bazată pe utilizator
  • valabilitatea datelor
  • Volumul, viteza și varietatea datelor

Modele

  • Construire modele
  • Modele statistice
  • Învățare automată

Clasificarea datelor

  • Clustering
  • kGrupuri, k-înseamnă, cei mai apropiați vecini
  • Colonii de furnici, păsări în turmă

Modele predictive

  • Arbori de decizie
  • Suport mașină vectorială
  • Clasificarea naiv Bayes
  • Rețele neuronale
  • Modelul Markov
  • Regresia
  • Metode de ansamblu

ROI

  • Raport beneficiu/cost
  • Costul software-ului
  • Costul dezvoltării
  • Beneficii potențiale

Modele de constructii

  • Pregătirea datelor (MapReduce)
  • Curățarea datelor
  • Alegerea metodelor
  • Model de dezvoltare
  • Model de testare
  • Evaluarea modelului
  • Implementarea și integrarea modelului

Prezentare generală a software-ului open source și comercial

  • Selectarea pachetului R-project
  • Python biblioteci
  • Hadoop și Mahout
  • Proiecte Apache selectate legate de Big Data și Analytics
  • Soluție comercială selectată
  • Integrare cu software-ul și sursele de date existente

Cerințe

Înțelegerea metodelor tradiționale de gestionare și analiză a datelor, cum ar fi SQL, depozitele de date, business intelligence, OLAP etc... Înțelegerea statisticilor de bază și a probabilităților (medie, varianță, probabilitate, probabilitate condiționată etc.) ....)

  21 ore

Numărul de participanți



Pret per participant

Mărturii (2)

Cursuri înrudite

Unified Batch and Stream Processing with Apache Beam

  14 ore

Categorii înrudite