Description
Ce programme de formation sur les fondamentaux de Python et la data science vise à initier les participants aux concepts clés du langage Python, des structures de données aux bonnes pratiques de programmation, en passant par la programmation orientée objet. Il aborde également des outils essentiels pour la data science, tels que Numpy, Pandas et Matplotlib, ainsi que des notions de machine learning avec Scikit-learn. Destiné aux débutants souhaitant se former dans le domaine de la data science, ce cursus inclut des projets pratiques et des compétitions pour appliquer les
Objectifs
- Maîtriser la syntaxe et les concepts clés de Python
- Savoir manipuler les différents types de données et structures de contrôle
- Être capable de développer des scripts et programmes Python modulaires
- Connaître les bonnes pratiques de programmation et de gestion de projet
- Découvrir l'écosystème data science de Python et ses principales librairies
- Savoir explorer et visualiser des données avec Pandas et Matplotlib
- Comprendre les bases du machine learning et les différents types d'algorithmes
- Mettre en œuvre des modèles supervisés et non supervisés avec Scikit-learn
- Être en mesure d'appliquer Python à des projets concrets de data science
Récapitulatif
Public
Développeurs, administrateurs et architectes
Prérequis
Connaissances de base en programmation (variables, boucles, fonctions...)
Connaissance en machine learning
Connaissance de statistiques descriptives et de probabilités
Expérience professionnelle en analyse de données appréciée mais non indispensable
Méthodes et modalités pédagogiques
Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.
Moyens et supports pédagogiques
Mise à disposition d'un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d'une documentation pédagogique numérique pendant la formation
La formation est constituée d'apports théoriques, d'exercices pratiques et de réflexions
Dans le cas d'une formation sur site Entreprise, le client s'engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard...) au bon déroulement de l'action de formation conformément aux prérequis indiqués dans le programme de formation
Modalités de suivi et d'évaluations
Auto-positionnement des stagiaires avant la formation
Émargement des stagiaires et formateur par 1/2 journée
Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires
Auto-évaluation des acquis de la formation par les stagiaires
Questionnaire de satisfaction à chaud et à froid à l'issue de la formation
Programme détaillé
Fondamentaux de Python
Introduction à Python
- Historique et philosophie du langage
- Installation et prise en main de l'environnement de développement
- Syntaxe de base : indentation, commentaires, variables, types de données...
Structures de données Python
- Listes, tuples, dictionnaires, ensembles
- Slicing, compréhensions de listes
- Manipulation et méthodes des différentes structures
Structures de contrôle
- Instructions conditionnelles (if/elif/else)
- Boucles for et while
- Fonctions et passage d'arguments
Bonnes pratiques de programmation
- Conventions de nommage, PEP 8
- Gestion des erreurs et exceptions
- Modules et packages
Introduction à la programmation orientée objet (POO)
- Concepts de base de la POO
- Définition de classes et d'objets en Python
- Héritage et polymorphisme
Python pour la data science
Présentation de l'écosystème data science Python
- Vue d'ensemble des librairies essentielles : Numpy, Pandas, Matplotlib...
- Jupyter Notebook pour les projets data science
Numpy pour le calcul scientifique
- Objets ndarray et vectorisation des calculs
- Slicing, broadcasting, masques booléens
- Algèbre linéaire et statistiques avec Numpy
Introduction à Pandas
- Structures de données Pandas : Series et DataFrame
- Lecture/écriture de fichiers CSV, Excel, SQL...
- Extraction et filtrage de données
Manipulations de données avec Pandas
- Opérations sur les indexes et les colonnes
- Transformation de variables (apply, map, cut...)
- Gestion des données manquantes
- Concaténation et fusion de DataFrame
Introduction à la data visualisation avec Matplotlib
- Création de graphiques simples : courbes, histogrammes, camemberts...
- Personnalisation des graphiques
- Figures, subplots et multiples graphiques
Data visualisation et statistiques
Data visualisation avancée avec Seaborn
- Graphiques statistiques : dispersion, densité, pairplot...
- Utilisation de données catégorielles
- Personnalisation avancée des graphiques
Statistiques avec Scipy
- Statistiques descriptives
- Tests statistiques paramétriques et non-paramétriques
Projet dirigé : Analyse exploratoire d'un jeu de données
- Import, nettoyage et transformation des données
- Analyses statistiques univariées et multivariées
- Visualisations avancées et interprétation des résultats
Introduction au machine learning
Concepts fondamentaux du machine learning
- Types d'apprentissage : supervisé, non supervisé, par renforcement
- Compromis biais-variance, overfitting et régularisation
- Évaluation et validation croisée
Algorithmes de ML supervisés avec Scikit-learn
- Pré-processing des données : encodage, scaling...
- Entraînement et évaluation d'un modèle
- Algorithmes de classification (KNN, régression logistique, SVM...)
- Algorithmes de régression (linéaire, polynomiale, régularisée...)
Algorithmes de ML non supervisés avec Scikit-learn
- Réduction de dimension (ACP, t-SNE...)
- Clustering (K-means, DBScan...)
Interprétation et explicabilité des modèles
- Importance des variables
- Outils d'explicabilité (LIME, SHAP...)
Projet dirigé : Prédiction supervisée sur un jeu de données réel
- Analyse du problème et des données
- Feature engineering et sélection de variables
- Comparaison et optimisation de différents algorithmes
- Interprétation des résultats
Datathon : compétition Kaggle
Présentation du challenge et des données
- Analyse exploratoire et feature engineering
- Essais de différentes approches de modélisation
- Soumission et évaluation des résultats
Présentation des projets devant la classe
- Pitch des démarches et des résultats obtenus
- Retours du formateur et des autres participants
Conclusion et perspectives
- Récapitulatif des points clés de la formation
- Conseils pour approfondir et monter en compétences
- Panorama des métiers et des opportunités en data science