Python, Data Scientist avec Python

0 ( avis)

Découvrez les fondamentaux de la data science et de Python, apprenez à manipuler des données avec des outils puissants comme Hadoop, Pandas, et Scikit-learn, et maîtrisez le machine learning et les réseaux neuronaux pour transformer vos analyses en décis

Partager cette formation :

Description Objectifs Récapitulatif Programme détaillé

Description

Ce programme de formation en data science vise à initier les participants aux concepts fondamentaux et aux outils essentiels du domaine. Il couvre des sujets tels que Python, le machine learning, les bases de données (SQL et NoSQL), ainsi que des techniques avancées comme la régression linéaire, le clustering et les réseaux neuronaux. Destiné aux professionnels souhaitant acquérir des compétences en analyse de données, ce cursus offre une approche pratique, intégrant des outils tels que Jupyter, Pandas et Matplotlib, pour une compréhension approfondie des données et de leur manipulation.

Objectifs

Savoir mettre en place un DataLake et un DataMart en SQL ou big data
Définir une stratégie de Machine Learning en Python
Créer le modèle le plus satisfaisant possible en le mesurant et en affichant les résultats
Développer des algorithmes performants

Récapitulatif

Public

Développeur, chef de projets proche du développement, ingénieur scientifique sachant coder

Prérequis

Maîtriser l'algorithmique,
Avoir une appétence pour les mathématiques,
La connaissance de Python et des statistiques est un plus

Méthodes et modalités pédagogiques

Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.

Moyens et supports pédagogiques

Mise à disposition d'un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d'une documentation pédagogique numérique pendant la formation
La formation est constituée d'apports théoriques, d'exercices pratiques et de réflexions
Dans le cas d'une formation sur site Entreprise, le client s'engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard...) au bon déroulement de l'action de formation conformément aux prérequis indiqués dans le programme de formation

Modalités de suivi et d'évaluations

Auto-positionnement des stagiaires avant la formation

Émargement des stagiaires et formateur par 1/2 journée

Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires

Auto-évaluation des acquis de la formation par les stagiaires

Questionnaire de satisfaction à chaud et à froid à l'issue de la formation

Programme détaillé

Introduction aux data sciences

Qu'est que la data science ?
Qu'est-ce que Python ?
Qu'est que le Machine Learning ?
Apprentissage supervisé vs non supervisé
Les statistiques
La randomisation
La loi normale

Introduction à Python pour la data science

Les bases de Python
Les listes
Les tuples
Les dictionnaires
Les modules et packages
L'orienté objet
Le module math
Les expressions lambda
Map, reduce et filter
Le module CSV
Les modules DB-API 2
Anaconda

Introduction aux datalakes, datamarts et datawarehouses

Qu'est-ce qu'un DataLake ?
Les différents types de DataLake
Le Big Data
Qu'est-ce qu'un DataWharehouse ?
Qu'est qu'un DataMart ?
Mise en place d'un DataMart
Les fichiers
Les bases de données SQL
Les bases de données No-SQL

Python package installer

Utilisation de PIP
Installation de package PIP
PyPi

Matplotlib

Utilisation de la bibliothèque scientifique de graphes MatPlotLib
Affichage de données dans un graphique 2D
Affichages de sous-graphes
Affichage de polynômes et de sinusoïdales

Apprentissage automatique

Mise en place d'une machine learning supervisé
Qu'est qu'un modèle et un dataset
Qu'est qu'une régression
Les différents types de régression
La régression linéaire
Gestion du risque et des erreurs
Quarter d'Ascombe
Trouver le bon modèle
La classification
Loi normale, variance et écart type
Apprentissage
Mesure de la performance
No Fee Lunch

La régression linéaire en Python

Programmer une régression linéaire en Python
Utilisation des expressions lambda et des listes en intention
Afficher la régression avec MatPlotLib
L'erreur quadratique
La variance
Le risque

Le big data

Qu'est-ce que Apache Hadoop ?
Qu'est-ce que l'informatique distribué ?
Installation et configuration de Hadoop

HDFS

Création d'un datanode
Création d'un namenode distribué
Manipulation de HDFS
Hadoop comme DataLake
Map Reduce
Hive
Hadoop comme DataMart
Python HDFS

Les bases de données NoSQL

Les bases de données structurées
SQL avec SQLite et Postgresql
Les bases de données non ACID

Json

MongoDB
Cassandra, Redis, CouchDb
MongoDB sur HDFS
MongoDB comme DataMart
PyMongo

Numpy et Scipy

Les tableaux et les matrices
L'algèbre linéaire avec Numpy
La régression linéaire SciPy
Le produit et la transposée
L'inversion de matrice
Les nombres complexes
L'algèbre complexe
Les transformées de Fourier
Numpy et Matplotlib

Scikit-learn

Le machine Learning avec SKLearn
La régression linéaire
La création du modèle
L'échantillonnage
La randomisation
L'apprentissage avec fit
La prédiction du modèle
Les metrics
Choix du modèle
PreProcessing et Pipeline
Régressions non polynomiales

Plus proches voisins

Algorithme des k plus proches voisins (k-NN)
Modèle de classification
K-NN avec SciKitLearn
Choix du meilleur k
Sérialisation du modèle
Variance vs Erreurs
Autres modèles : SVN, Random Forest

Pandas

L'analyse des données avec Pandas
Les Series
Les DataFrames
La théorie ensembliste avec Pandas
L'importation des données CSV
L'importation de données SQL
L'importation de données MongoDB
Pandas et SKLearn

Le clustering

Regroupement des données par clusterisation
Les clusters SKLearn avec k-means
Autres modèles de clusterisation : AffinityPropagation, MeanShift, ...
L'apprentissage semi-supervisé

Jupyter

Présentation de Jupyter et Ipython
Installation
Utilisation de Jupyter avec Mathplotlib et Sklearn

Python yield

La programmation efficace en Python
Le générateurs et itérateurs
Le Yield return
Le Yield avec Db-API 2, Pandas et Sklearn

Les réseaux neuronaux

Le perceptron
Les réseaux neuronaux
Les réseaux neuronaux supervisés
Les réseaux neuronaux semi-supervisés
Les réseaux neuronaux par Hadoop Yarn
Les heuristiques
Le deep learning

Python, Data Scientist avec Python

5 jours (35 heures)

Référence :

MOD_2024856

Formation Inter

2850 € ^HT

5 jours (35 heures)

Référence :

MOD_2024856

Formation Intra

Découvrez toutes les formations

Développement logiciel Langages C, C++, Java, .Net, Python… Python

Python, développer un site web REST avec Flask

Maîtrisez Python avec notre formation complète : explorez les structures de données, les modules, l'ORM avec Sqlalchemy, le développement web avec Flask, et bien plus.…

3 jours

En savoir plus
Développement logiciel Langages C, C++, Java, .Net, Python… Python

Python, Calculs scientifiques

Découvrez comment maîtriser la visualisation de données avec Matplotlib, effectuer des calculs avancés grâce à NumPy et SciPy, et manipuler efficacement vos données avec Pandas.…

3 jours

En savoir plus
Développement logiciel Langages C, C++, Java, .Net, Python… Python

Python, Deep Learning avec Python et TensorFlow

Découvrez les fondamentaux des data sciences, apprenez à maîtriser Python et ses bibliothèques essentielles comme TensorFlow et Keras, et plongez dans l'apprentissage automatique avec des…

3 jours

En savoir plus
Développement logiciel Langages C, C++, Java, .Net, Python… Python

Python, scripting

Découvrez les fondamentaux du langage Python : portabilité, interprétation, types de données, opérateurs, méthodes, instructions et classes. Apprenez à manipuler les fichiers, gérer les variables,…

3 jours

En savoir plus
Développement logiciel Langages C, C++, Java, .Net, Python… Python

Python, développement web avec Django

Découvrez les fondamentaux de Python et Django : de la programmation à la création d'API REST, en passant par la gestion des bases de données…

4 jours

En savoir plus
Développement logiciel Langages C, C++, Java, .Net, Python… Python

Python, programmation Objet

Éligible CPF

Financé ATLAS

Maîtrisez Python : découvrez son historique, sa syntaxe, et ses modules. Apprenez aussi à concevoir des interfaces graphiques et à tester vos programmes. Développez vos…

Prochaine session: 23/03/2026

5 jours

Session disponible !

Les données saisies dans ce formulaire sont conservées par nos soins afin de pouvoir répondre au mieux à votre demande. Nous accordons de l’importance à la gestion de vos données, en savoir plus sur notre démarche Données Personnelles.

Python, Data Scientist avec Python

Description

Objectifs

Récapitulatif

Public

Prérequis

Méthodes et modalités pédagogiques

Moyens et supports pédagogiques

Modalités de suivi et d'évaluations

Programme détaillé

Introduction aux data sciences

Introduction à Python pour la data science

Introduction aux datalakes, datamarts et datawarehouses

Python package installer

Matplotlib

Apprentissage automatique

La régression linéaire en Python

Le big data

HDFS

Les bases de données NoSQL

Json

Numpy et Scipy

Scikit-learn

Plus proches voisins

Pandas

Le clustering

Jupyter

Python yield

Les réseaux neuronaux

Trouvez la formation qui répond à vos enjeux

Vous aimerez aussi

Python, développer un site web REST avec Flask

Python, Calculs scientifiques

Python, Deep Learning avec Python et TensorFlow

Python, scripting

Python, développement web avec Django

Python, programmation Objet

Nos formations “Langages C, C++, Java, .Net, Python…” en France

Être rappelé

Je demande un devis

Je m'inscris

Python, Data Scientist avec Python

Trouvez la formation qui
répond à vos enjeux