Schița de curs

Introducere în Analiza Datelor și Big Data

  • Ce face ca Big Data să fie „Big”?
    • Viteză, Volum, Varietate, Veracitate (VVVV)
  • Limitele Procesării Tradiționale a Datelor
  • Procesare Distribuită
  • Analiză Statistică
  • Tipuri de Analiză în Învățarea Automată
  • Vizualizarea Datelor

Roluri și Responsabilități în Big Data

  • Administratori
  • Dezvoltatori
  • Analiști de Date

Limbaje Utilizate pentru Analiza Datelor

  • Limbajul R
    • De ce R pentru Analiza Datelor?
    • Manipularea, calculul și afișarea grafică a datelor
  • Python
    • De ce Python pentru Analiza Datelor?
    • Manipularea, procesarea, curățarea și prelucrarea datelor

Abordări ale Analizei Datelor

  • Analiză Statistică
    • Analiza Seriilor de Timp
    • Prognoză folosind modele de Corelație și Regresie
    • Statistică Inferențială (estimare)
    • Statistică Descriptivă în seturi de date mari (de ex. calculul mediei)
  • Învățare Automată
    • Învățare supervizată vs nesupervizată
    • Clasificare și grupare
    • Estimarea costului metodelor specifice
    • Filtrare
  • Procesarea Limbajului Natural
    • Procesarea textului
    • Înțelegerea sensului textului
    • Generarea automată de text
    • Analiza sentimentelor / analiza temelor
  • Viziune Computerizată
    • Acquisizarea, procesarea, analiza și înțelegerea imaginilor
    • Reconstrucția, interpretarea și înțelegerea scenelor 3D
    • Utilizarea datelor de imagine pentru a lua decizii

Infrastructura Big Data

  • Stocarea Datelor
    • Baze de date relaționale (SQL)
      • MySQL
      • Postgres
      • Oracle
    • Baze de date nerelaționale (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • Înțelegerea nuanțelor
      • Baze de date ierarhice
      • Baze de date orientate pe obiecte
      • Baze de date orientate pe documente
      • Baze de date orientate pe grafice
      • Altele
  • Procesare Distribuită
    • Hadoop
      • HDFS ca sistem de fișiere distribuit
      • MapReduce pentru procesare distribuită
    • Spark
      • Cadru de calcul în cluster în memorie pentru procesarea datelor la scară largă
      • Streaming structurat
      • Spark SQL
      • Biblioteci de Învățare Automată: MLlib
      • Procesarea grafică cu GraphX
  • Scalabilitate
    • Cloud public
      • AWS, Google, Aliyun, etc.
    • Cloud privat
      • OpenStack, Cloud Foundry, etc.
    • Auto-scalabilitate

Alegerea Soluției Potrivite pentru Problemă

Viitorul Big Data

Rezumat și Pași Următori

Cerințe

  • O înțelegere generală a matematicii
  • O înțelegere generală a programării
  • O înțelegere generală a bazelor de date

Publicul Țintă

  • Dezvoltatori / programatori
  • Consultanți IT
 35 Ore

Numărul de participanți


Pret per participant

Mărturii (7)

Cursuri viitoare

Categorii înrudite