Description
Le programme de formation sur la régression et le feature engineering vise à initier les participants aux concepts fondamentaux du machine learning supervisé, en se concentrant sur les techniques de régression et de classification. Les apprenants exploreront les algorithmes, les métriques d'évaluation, ainsi que les méthodes de prétraitement des données et d'ingénierie des caractéristiques. À travers des études de cas pratiques, ils seront capables de mettre en œuvre des modèles pour des applications concrètes, tout en apprenant à éviter les pièges courants et à optimiser les performances des modèles. Ce
Objectifs
- Comprendre les principes du machine learning supervisé
- Connaître les principaux algorithmes de régression et de classification
- Savoir préparer des données étiquetées pour entraîner un modèle supervisé
- Être capable d'entraîner, évaluer et optimiser ces modèles sur Python avec scikit-learn
- Maîtriser les techniques de feature engineering et de sélection de variables
- Savoir interpréter les résultats et formuler des recommandations business
- Connaître les limites et les biais potentiels des modèles supervisés
Récapitulatif
Public
Professionnels des données et analystes commerciaux cherchant à maîtriser les modèles de Machine Learning supervisé, tels que les régressions et la classification, pour optimiser les prévisions et les stratégies décisionnelles dans leur secteur d'activité
Prérequis
Connaissances en statistiques et en algorithmique
Maîtrise des bases de Python et de la manipulation de données (numpy, pandas)
Expérience en analyse de données ou en data science
Méthodes et modalités pédagogiques
Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.
Moyens et supports pédagogiques
Mise à disposition d'un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d'une documentation pédagogique numérique pendant la formation
La formation est constituée d'apports théoriques, d'exercices pratiques et de réflexions
Dans le cas d'une formation sur site Entreprise, le client s'engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard...) au bon déroulement de l'action de formation conformément aux prérequis indiqués dans le programme de formation
Modalités de suivi et d'évaluations
Auto-positionnement des stagiaires avant la formation
Émargement des stagiaires et formateur par 1/2 journée
Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires
Auto-évaluation des acquis de la formation par les stagiaires
Questionnaire de satisfaction à chaud et à froid à l'issue de la formation
Programme détaillé
Régression et feature engineering
Introduction au machine learning supervisé
- Différences entre régression et classification
- Principaux cas d'usage (prédiction de ventes, détection de spam...)
- Étapes d'un projet de ML supervisé
Algorithmes de régression
- Régression linéaire simple et multiple
- Métriques d'évaluation (RMSE, R2...)
Feature engineering pour la régression
- Scaling et normalisation des variables
- Gestion des variables catégorielles
- Création de nouvelles variables
- Sélection de variables
Étude de cas : Prédiction des prix de l'immobilier
Pré-processing des données et feature engineering
- Entraînement et évaluation de différents modèles
- Interprétation des coefficients et des erreurs
Classification et interprétabilité
Algorithmes de classification
- Régression logistique
- Arbres de décision
Svm
- Métriques d'évaluation (accuracy, precision, recall, f1-score...)
Feature engineering pour la classification
- Encodage des variables catégorielles (one-hot, label...)
- Discrétisation des variables numériques
- Gestion du déséquilibre des classes
Interprétation des modèles de classification
- Matrice de confusion
- Courbe ROC et AUC
- Feature importance
- LIME et SHAP pour expliquer les prédictions
Étude de cas et conclusions
Étude de cas : Prédire l'achat d'un client
- Pré-processing des données et feature engineering
- Comparaison de différents classifieurs
- Optimisation des hyperparamètres
- Interprétation des coefficients
Bonnes pratiques et pièges à éviter
- Choix de la métrique d'évaluation
- Gestion du surajustement (overfitting)
- Dangers des variables de fuite (leakage)
- Biais des données d'entraînement