Description
Ce programme de formation sur le machine learning non supervisé vise à familiariser les participants avec les concepts fondamentaux et les applications pratiques de cette méthode. Il aborde les différences entre apprentissage supervisé et non supervisé, les techniques de pré-processing des données, ainsi que les algorithmes de clustering tels que k-means et DBScan. Les apprenants travailleront sur des projets concrets, favorisant l'interprétation des résultats et l'application des bonnes pratiques. Ce parcours s'adresse aux professionnels souhaitant approfondir leurs compétences en data science et machine learning.
Objectifs
- Comprendre les principes et les cas d'usage du machine learning non supervisé
- Savoir préparer et pré-processer des données non labelisées
- Maîtriser les principaux algorithmes non supervisés : clustering, réduction de dimension, détection d'anomalies
- Être capable d'entraîner ces modèles sur Python avec scikit-learn
- Savoir interpréter et visualiser les résultats pour en tirer des insights business
- Connaître les limites et les pièges à éviter dans un projet de ML non supervisé
Récapitulatif
Public
Professionnels des données et analystes commerciaux cherchant à approfondir leur compréhension du Machine Learning, pour améliorer la segmentation et les analyses prédictives dans un contexte commercial.
Prérequis
Expérience dans l'analyse de données (data analyst, data scientist...)
Connaissances de base en statistiques et en algorithmique
Connaissance du machine learning supervisé
Pratique de la programmation, idéalement en Python
Méthodes et modalités pédagogiques
Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.
Moyens et supports pédagogiques
Mise à disposition d'un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d'une documentation pédagogique numérique pendant la formation
La formation est constituée d'apports théoriques, d'exercices pratiques et de réflexions
Dans le cas d'une formation sur site Entreprise, le client s'engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard...) au bon déroulement de l'action de formation conformément aux prérequis indiqués dans le programme de formation
Modalités de suivi et d'évaluations
Auto-positionnement des stagiaires avant la formation
Émargement des stagiaires et formateur par 1/2 journée
Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires
Auto-évaluation des acquis de la formation par les stagiaires
Questionnaire de satisfaction à chaud et à froid à l'issue de la formation
Programme détaillé
Introduction au machine learning non supervisé
- Différences entre apprentissage supervisé et non supervisé
- Principaux cas d'usage (segmentation, détection de tendances, réduction de dimension...)
- Panorama des algorithmes et des librairies en Python
Pré-processing des données non étiquetées
- Gestion des données manquantes
- Normalisation et standardisation
- Feature selection
- Exercice : pré-processing d'un dataset Kaggle
Clustering
- Principe du partitionnement de données
- Présentation des algorithmes k-means, KNN, DBScan
- Évaluation de la qualité des clusters
- Étude de cas : segmentation client
Approfondissements et projet
Projet fil rouge
- Présentation du dataset et de la problématique business
- Entraînement des modèles en groupes
- Interprétation des résultats et recommandations business
- Restitution des projets
Bonnes pratiques et écueils à éviter
- Choix de l'algorithme et des hyperparamètres
- Interprétabilité et explicabilité des modèles
- Dérives et biais des algorithmes non supervisés
- Limites du ML non supervisé
Conclusion et perspectives
Récapitulatif des concepts clés abordés
- Discussion sur les applications potentielles dans différents secteurs d'activité
- Perspectives d'évolution et de développement des compétences en ML non supervisé