Schița de curs

Introducere în Analiza Datelor și Big Data

  • Ce face Big Data „mare”?
    • Viteză, Volum, Varietate, Veridicitate (VVVV)
  • Limițele procesării tradiționale a datelor
  • Procesare distribuită
  • Analiză statistică
  • Tipuri de analiză cu învățarea automată (machine learning)
  • Visualizarea datelor

Roll-uri și Responsabilități în Big Data

  • Administratori
  • Dezvoltatori
  • Analiztori de date

Limbaje folosite pentru analiza datelor

  • Limbaj R
    • De ce R pentru Analiza Datelor?
    • Manipularea, calcularea și afișarea grafică a datelor
  • Limbaj Python
    • De ce Python pentru Analiza Datelor?
    • Manipularea, procesarea, curățarea și analiza datelor

Apropierea la Analiza Datelor

  • Analiză statistică
    • Analiză de serii temporale
    • Predicție cu modele de corelație și regresie
    • Statistica inferențială (estimare)
    • Statistica descriptivă în seturi de date Big Data (de exemplu, calcularea mediei)
  • Invățarea automată
    • Invățarea supravegheată vs. ne-supravegheată
    • Clasificare și grupare
    • Estimarea costului unor metode specifice
    • Filtrare
  • Procesarea limbajului natural
    • Procesarea textelor
    • Înțelegerea sensului textului
    • Generarea automată de text
    • Analiza sentimentului / analiza tematică
  • Viziunea computerizată
    • Acquisiția, procesarea, analiza și înțelegerea imaginilor
    • Reconstrucția, interpretarea și înțelegerea scenelor 3D
    • Folosirea datelor de imagine pentru a lua decizii

Infrastructura Big Data

  • Stocarea datelor
    • Baze de date relaționale (SQL)
      • MySQL
      • Postgres
      • Oracle
    • Baze de date non-relaționale (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4j
    • Înțelegerea particularităților
      • Baze de date ierarhice
      • Baze de date orientate obiect
      • Baze de date orientate document
      • Baze de date orientate graf
      • Altele
  • Procesare distribuită
    • Hadoop
      • HDFS ca sistem de fișiere distribuit
      • MapReduce pentru procesarea distribuită
    • Spark
      • Framework complet de calcul în memorie pe clusteri pentru procesarea la scară largă a datelor
      • Streaming structurat
      • Spark SQL
      • Biblioteci de invățare automată: MLlib
      • Procesare grafică cu GraphX
  • Scalabilitate
    • Nuvă cloud public
      • AWS, Google, Aliyun, etc.
    • Nuvă cloud privat
      • OpenStack, Cloud Foundry, etc.
    • Scalabilitate automată

Alegerea Soluției Corecte pentru Problema

Viziunea Viitorului Big Data

Synopsis și Următoarele Pași

Cerințe

  • O înțelegere generală a matematicii
  • O înțelegere generală a programării
  • O înțelegere generală a bazelor de date

Public Țintă

  • Dezvoltatori / programatori
  • Consultanți IT
 35 ore

Numărul de participanți


Pret per participant

Mărturii (7)

Cursuri viitoare

Categorii înrudite