Schița de curs
Introducere în Machine Learning
- Tipuri de machine learning – supervizat vs nesupervizat
- De la învățarea statistică la machine learning
- Workflow-ul de data mining: înțelegerea afacerii, pregătirea datelor, modelare, implementare
- Alegerea algoritmului potrivit pentru sarcină
- Overfitting și compromisul bias-varianță
Prezentare a bibliotecilor Python și ML
- De ce să folosim limbaje de programare pentru ML
- Alegerea între R și Python
- Curs intensiv de Python și Jupyter Notebooks
- Biblioteci Python: pandas, NumPy, scikit-learn, matplotlib, seaborn
Testarea și evaluarea algoritmilor ML
- Generalizare, overfitting și validarea modelului
- Strategii de evaluare: holdout, cross-validation, bootstrapping
- Metrici pentru regresie: ME, MSE, RMSE, MAPE
- Metrici pentru clasificare: acuratețe, matrice de confuzie, clase nesimetrice
- Vizualizarea performanței modelului: curbă profit, curbă ROC, curbă lift
- Selecția modelului și căutarea pe grilă pentru ajustare
Pregătirea datelor
- Importul și stocarea datelor în Python
- Analiza exploratorie și statistici descriptive
- Gestionarea valorilor lipsă și outlier-ilor
- Standardizare, normalizare și transformare
- Recodificarea datelor calitative și manipularea datelor cu pandas
Algoritmi de clasificare
- Clasificare binară vs multiclase
- Regresia logistică și funcții discriminante
- Naïve Bayes, k-nearest neighbors
- Decision trees: CART, Random Forests, Bagging, Boosting, XGBoost
- Mașini cu vectori de suport și nucleușe
- Tehnici de învățare ensemble
Regresie și predicția numerică
- Metoda celor mai mici pătrate și selecția variabilelor
- Metode de regularizare: L1, L2
- Regresie polinomială și modele neliniare
- Arbori de regresie și spline-uri
Rețele neuronale
- Introducere în rețele neuronale și deep learning
- Funcții de activare, straturi și backpropagation
- Perceptroni multi-strat (MLP)
- Utilizarea TensorFlow sau PyTorch pentru modelarea de bază a rețelelor neuronale
- Rețele neuronale pentru clasificare și regresie
Prognozarea vânzărilor și analiza predictivă
- Serie temporale vs prognozarea bazată pe regresie
- Gestionarea datelor sezoniere și trend-based
- Construirea unui model de prognozare a vânzărilor folosind tehnici ML
- Evaluarea acurateții și incertitudinii prognozelor
- Interpretarea și comunicarea rezultatelor pentru afaceri
Învățare nesupervizată
- Tehnici de clustering: k-means, k-medoids, clustering ierarhic, SOMs
- Reducerea dimensionalității: PCA, analiza factorială, SVD
- Scalarea multidimensională
Minadarea textului
- Prelucrarea și tokenizarea textului
- Bag-of-words, stemming și lemmatization
- Analiza sentimentului și frecvența cuvintelor
- Vizualizarea datelor textuale cu cloud-uri de cuvinte
Sisteme de recomandare
- Filtrarea colaborativă bazată pe utilizator și item
- Proiectarea și evaluarea motorilor de recomandare
Minadarea pattern-urilor de asociere
- Itemset-urile frecvente și algoritmul Apriori
- Analiza cosului de cumpărături și raportul lift
Detectarea outlier-ilor
- Analiza valorilor extreme
- Metode bazate pe distanță și densitate
- Detectarea outlier-ilor în date cu dimensionalitate ridicată
Studiu de caz în Machine Learning
- Înțelegerea problemei de afaceri
- Pregătirea datelor și ingineria caracteristicilor
- Selecția modelului și ajustarea parametrilor
- Evaluarea și prezentarea descoperirilor
- Implementare
Rezumat și următoarele pași
Cerințe
- Cunoaștere basică a conceptelor de învățare automată, cum ar fi învățarea supravegheată și nesupravegheată
- Familiaritate cu programarea Python (variabile, bucle, funcții)
- Unor cunoștințe de bază în manipularea datelor folosind biblioteci precum pandas sau NumPy este util, dar nu este necesară
- Nu se presupune nicio experiență anterioară cu modele avansate sau rețele neurale
Audiență
- Cercetători de date
- Analiști de afaceri
- Ingineri software și profesioniști tehnici care lucrează cu date
Mărturii (2)
ecosistemul ML nu se limitează la MLFlow ci include și Optuna, hyperops, docker, docker-compose
Guillaume GAUTIER - OLEA MEDICAL
Curs - MLflow
Tradus de catre o masina
Am apreciat participarea la antrenamentul Kubeflow, care s-a desfășurat în mod remote. Acest antrenament m-a permis să consolidez cunoștințele despre serviciile AWS, K8s și toolele devOps din jurul Kubeflow, care sunt bazele necesare pentru a aborda subiectul în mod corespunzător. Doresc să-i mulțumesc lui Malawski Marcin pentru paciența și profesionalismul arătat în antrenament și în oferirea de sfaturi privind cele mai bune practici. Malawski abordează subiectul din diferite perspective, folosind diverse instrumente de dezvoltare Ansible, EKS kubectl, Terraform. Acum sunt cu siguranță convins că mă îndrept către domeniul potrivit de aplicare.
Guillaume Gautier - OLEA MEDICAL | Improved diagnosis for life TM
Curs - Kubeflow
Tradus de catre o masina