Schița de curs

Introducere

Această secțiune oferă o introducere generală despre când să folosim „învățarea automată”, ce trebuie luat în considerare și ce înseamnă toate acestea, inclusiv avantajele și dezavantajele. Tipuri de date (structurate/nestructurate/statice/streamate), validitatea/volumul datelor, analize bazate pe date vs. analize bazate pe utilizator, modele statistice vs. modele de învățare automată, provocări ale învățării nesupervizate, compromisul bias-varianță, iterație/evaluare, abordări de cross-validare, învățare supervizată/nesupervizată/cu întărire.

SUBJECTE PRINCIPALE

1. Înțelegerea metodei naive Bayes

  • Concepte de bază ale metodelor Bayesiene
  • Probabilitate
  • Probabilitate comună
  • Probabilitate condiționată cu teorema lui Bayes
  • Algoritmul naive Bayes
  • Clasificarea naive Bayes
  • Estimatorul Laplace
  • Utilizarea caracteristicilor numerice cu naive Bayes

2. Înțelegerea arborilor de decizie

  • Divide și cucerește
  • Algoritmul arborelui de decizie C5.0
  • Alegerea celei mai bune diviziuni
  • Trunchierea arborelui de decizie

3. Înțelegerea rețelelor neuronale

  • De la neuroni biologici la neuroni artificiali
  • Funcții de activare
  • Topologia rețelei
  • Numărul de straturi
  • Direcția de circulație a informațiilor
  • Numărul de noduri în fiecare strat
  • Antrenarea rețelelor neuronale cu backpropagation
  • Învățare profundă

4. Înțelegerea mașinilor cu vectori de suport

  • Clasificare cu hiperplane
  • Găsirea marginii maxime
  • Cazul datelor liniar separabile
  • Cazul datelor neliniar separabile
  • Utilizarea nucleelor pentru spații neliniare

5. Înțelegerea clusteringului

  • Clustering ca sarcină de învățare automată
  • Algoritmul k-means pentru clustering
  • Utilizarea distanței pentru a atribui și actualiza clustere
  • Alegerea numărului adecvat de clustere

6. Măsurarea performanței pentru clasificare

  • Lucrul cu date de predicție de clasificare
  • O privire mai atentă asupra matricelor de confuzie
  • Utilizarea matricelor de confuzie pentru a măsura performanța
  • Dincolo de acuratețe – alte măsuri de performanță
  • Statistica kappa
  • Sensibilitate și specificitate
  • Precizie și reamintire
  • Măsura F
  • Vizualizarea compromisurilor de performanță
  • Curbe ROC
  • Estimarea performanței viitoare
  • Metoda holdout
  • Cross-validare
  • Eșantionare bootstrap

7. Reglarea modelelor standard pentru o performanță mai bună

  • Utilizarea caret pentru reglarea automată a parametrilor
  • Crearea unui model simplu reglat
  • Personalizarea procesului de reglare
  • Îmbunătățirea performanței modelului cu meta-învățare
  • Înțelegerea ansamblurilor
  • Bagging
  • Boosting
  • Păduri aleatoare
  • Antrenarea pădurilor aleatoare
  • Evaluarea performanței pădurilor aleatoare

SUBJECTE SECUNDARE

8. Înțelegerea clasificării folosind cei mai apropiați vecini

  • Algoritmul kNN
  • Calcularea distanței
  • Alegerea unui k adecvat
  • Pregătirea datelor pentru utilizarea cu kNN
  • De ce este algoritmul kNN leneș?

9. Înțelegerea regulilor de clasificare

  • Separă și cucerește
  • Algoritmul One Rule
  • Algoritmul RIPPER
  • Reguli din arbori de decizie

10. Înțelegerea regresiei

  • Regresie liniară simplă
  • Estimarea celor mai mici pătrate ordinare
  • Corelații
  • Regresie liniară multiplă

11. Înțelegerea arborilor de regresie și a arborilor de model

  • Adăugarea regresiei la arbori

12. Înțelegerea regulilor de asociere

  • Algoritmul Apriori pentru învățarea regulilor de asociere
  • Măsurarea interesului regulilor – suport și încredere
  • Construirea unui set de reguli cu principiul Apriori

Extras

  • Spark/PySpark/MLlib și Multi-armed bandits

Cerințe

Cunoștințe de Python

 21 Ore

Numărul de participanți


Pret per participant

Mărturii (7)

Cursuri viitoare

Categorii înrudite