Schița de curs
Introducere în Învățarea Automată
- Tipuri de învățare automată – supravegheată vs nesupravegheată
- De la învățarea statistică la învățarea automată
- Fluxul de lucru în data mining: înțelegerea afacerii, pregătirea datelor, modelarea, implementarea
- Alegerea algoritmului potrivit pentru sarcină
- Overfitting și compromisul bias-varianță
Prezentare generală a Python și a bibliotecilor pentru Învățarea Automată
- De ce să folosim limbaje de programare pentru Învățarea Automată
- Alegerea între R și Python
- Curs rapid de Python și Jupyter Notebooks
- Biblioteci Python: pandas, NumPy, scikit-learn, matplotlib, seaborn
Testarea și evaluarea algoritmilor de Învățare Automată
- Generalizare, overfitting și validarea modelelor
- Strategii de evaluare: holdout, cross-validation, bootstrapping
- Metrici pentru regresie: ME, MSE, RMSE, MAPE
- Metrici pentru clasificare: acuratețe, matrice de confuzie, clase dezechilibrate
- Vizualizarea performanței modelelor: curba profitului, curba ROC, curba lift
- Selecția modelelor și căutarea în grilă pentru reglare
Pregătirea datelor
- Importul și stocarea datelor în Python
- Analiză exploratorie și statistici sumare
- Gestionarea valorilor lipsă și a valorilor aberante
- Standardizare, normalizare și transformare
- Recodificarea datelor calitative și manipularea datelor cu pandas
Algoritmi de clasificare
- Clasificare binară vs multiclasă
- Regresie logistică și funcții discriminant
- Naïve Bayes, k-cei mai apropiați vecini
- Arbori de decizie: CART, Păduri Aleatoare, Bagging, Boosting, XGBoost
- Mașini cu Vectori de Suport și nuclee
- Tehnici de învățare ensemblistă
Regresie și predicție numerică
- Metoda celor mai mici pătrate și selecția variabilelor
- Metode de regularizare: L1, L2
- Regresie polinomială și modele neliniare
- Arbori de regresie și spline-uri
Învățare Nesupravegheată
- Tehnici de clustering: k-means, k-medoids, clustering ierarhic, SOMs
- Reducerea dimensionalității: PCA, analiza factorială, SVD
- Scalare multidimensională
Extragerea de informații din text
- Preprocesarea textului și tokenizarea
- Bag-of-words, stemming și lematizare
- Analiza sentimentelor și frecvența cuvintelor
- Vizualizarea datelor text cu nori de cuvinte
Sisteme de recomandare
- Filtrare colaborativă bazată pe utilizatori și pe articole
- Proiectarea și evaluarea motoarelor de recomandare
Extragerea de modele de asociere
- Seturi frecvente și algoritmul Apriori
- Analiza coșului de cumpărături și raportul de lift
Detectarea valorilor aberante
- Analiza valorilor extreme
- Metode bazate pe distanță și densitate
- Detectarea valorilor aberante în date de dimensiuni mari
Studiu de caz în Învățarea Automată
- Înțelegerea problemei de afaceri
- Pregătirea datelor și inginerie de caracteristici
- Selecția modelelor și reglarea parametrilor
- Evaluarea și prezentarea rezultatelor
- Implementarea
Rezumat și următorii pași
Cerințe
- Înțelegere de bază a statisticii și algebrei liniare
- Familiaritate cu concepte de analiză a datelor sau inteligență de afaceri
- Expunere la programare (de preferință Python sau R) este recomandată
- Interes pentru învățarea aplicată a învățării automate pentru proiecte bazate pe date
Public țintă
- Analiști și specialiști în date
- Statisticieni și profesioniști în cercetare
- Dezvoltatori și profesioniști IT care explorează instrumente de învățare automată
- Oricine este implicat în proiecte de știință a datelor sau analiză predictivă
Mărturii (3)
Chiar și cu o zi absentă din cauza întâlnirilor cu clienții, simt că am o înțelegere mult mai clară a proceselor și tehnicilor folosite în Machine Learning și când să aleg un abordare față de alta. Provocarea noastră acum este să ne antrenăm ceea ce am învățat și să îl aplicăm în domeniul nostru de problemă
Richard Blewett - Rock Solid Knowledge Ltd
Curs - Machine Learning – Data science
Tradus de catre o masina
Mă place că instruirea s-a concentrat pe exemple și codificare. Am crezut că este imposibil să se încadreze atât de mult conținut în trei zile de instruire, dar m-am greșit. Instruirea a acoperit multe subiecte și totul s-a făcut cu o atenție foarte de detaliu (mai ales ajustarea parametrilor modelului - nu m-am așteptat că va fi timp pentru asta și am fost foarte surprins).
Bartosz Rosiek - GE Medical Systems Polska Sp. Zoo
Curs - Machine Learning – Data science
Tradus de catre o masina
Afișează multe metode cu scripturi pregătite - materiale foarte bine pregătite și ușor de urmărit
Kamila Begej - GE Medical Systems Polska Sp. Zoo
Curs - Machine Learning – Data science
Tradus de catre o masina