Schița de curs

Introducere în Învățarea Automată

  • Tipuri de învățare automată – supravegheată vs nesupravegheată
  • De la învățarea statistică la învățarea automată
  • Fluxul de lucru în data mining: înțelegerea afacerii, pregătirea datelor, modelarea, implementarea
  • Alegerea algoritmului potrivit pentru sarcină
  • Overfitting și compromisul bias-varianță

Prezentare generală a Python și a bibliotecilor pentru Învățarea Automată

  • De ce să folosim limbaje de programare pentru Învățarea Automată
  • Alegerea între R și Python
  • Curs rapid de Python și Jupyter Notebooks
  • Biblioteci Python: pandas, NumPy, scikit-learn, matplotlib, seaborn

Testarea și evaluarea algoritmilor de Învățare Automată

  • Generalizare, overfitting și validarea modelelor
  • Strategii de evaluare: holdout, cross-validation, bootstrapping
  • Metrici pentru regresie: ME, MSE, RMSE, MAPE
  • Metrici pentru clasificare: acuratețe, matrice de confuzie, clase dezechilibrate
  • Vizualizarea performanței modelelor: curba profitului, curba ROC, curba lift
  • Selecția modelelor și căutarea în grilă pentru reglare

Pregătirea datelor

  • Importul și stocarea datelor în Python
  • Analiză exploratorie și statistici sumare
  • Gestionarea valorilor lipsă și a valorilor aberante
  • Standardizare, normalizare și transformare
  • Recodificarea datelor calitative și manipularea datelor cu pandas

Algoritmi de clasificare

  • Clasificare binară vs multiclasă
  • Regresie logistică și funcții discriminant
  • Naïve Bayes, k-cei mai apropiați vecini
  • Arbori de decizie: CART, Păduri Aleatoare, Bagging, Boosting, XGBoost
  • Mașini cu Vectori de Suport și nuclee
  • Tehnici de învățare ensemblistă

Regresie și predicție numerică

  • Metoda celor mai mici pătrate și selecția variabilelor
  • Metode de regularizare: L1, L2
  • Regresie polinomială și modele neliniare
  • Arbori de regresie și spline-uri

Învățare Nesupravegheată

  • Tehnici de clustering: k-means, k-medoids, clustering ierarhic, SOMs
  • Reducerea dimensionalității: PCA, analiza factorială, SVD
  • Scalare multidimensională

Extragerea de informații din text

  • Preprocesarea textului și tokenizarea
  • Bag-of-words, stemming și lematizare
  • Analiza sentimentelor și frecvența cuvintelor
  • Vizualizarea datelor text cu nori de cuvinte

Sisteme de recomandare

  • Filtrare colaborativă bazată pe utilizatori și pe articole
  • Proiectarea și evaluarea motoarelor de recomandare

Extragerea de modele de asociere

  • Seturi frecvente și algoritmul Apriori
  • Analiza coșului de cumpărături și raportul de lift

Detectarea valorilor aberante

  • Analiza valorilor extreme
  • Metode bazate pe distanță și densitate
  • Detectarea valorilor aberante în date de dimensiuni mari

Studiu de caz în Învățarea Automată

  • Înțelegerea problemei de afaceri
  • Pregătirea datelor și inginerie de caracteristici
  • Selecția modelelor și reglarea parametrilor
  • Evaluarea și prezentarea rezultatelor
  • Implementarea

Rezumat și următorii pași

Cerințe

  • Înțelegere de bază a statisticii și algebrei liniare
  • Familiaritate cu concepte de analiză a datelor sau inteligență de afaceri
  • Expunere la programare (de preferință Python sau R) este recomandată
  • Interes pentru învățarea aplicată a învățării automate pentru proiecte bazate pe date

Public țintă

  • Analiști și specialiști în date
  • Statisticieni și profesioniști în cercetare
  • Dezvoltatori și profesioniști IT care explorează instrumente de învățare automată
  • Oricine este implicat în proiecte de știință a datelor sau analiză predictivă
 21 Ore

Numărul de participanți


Pret per participant

Mărturii (3)

Cursuri viitoare

Categorii înrudite