Accueil > Nos Formations > Développement logiciel > Langages C, C++, Java, .Net, Python… > Python > Python, Data Scientist avec Python

Python, Data Scientist avec Python

0 ( avis)

Maîtrisez les fondamentaux de la data science et de Python, du machine learning aux bases de données NoSQL, en passant par le big data. Développez vos compétences pratiques avec des outils comme Pandas, Scikit-learn et Jupyter pour exceller dans ce domai

Description Objectifs Récapitulatif Programme détaillé

Description

Ce programme de formation en data science vise à fournir aux participants une compréhension approfondie des concepts fondamentaux et des outils essentiels dans ce domaine en pleine expansion. Il aborde des sujets variés tels que Python, le machine learning, les bases de données SQL et NoSQL, ainsi que les techniques de visualisation de données avec Matplotlib. Les apprenants exploreront également des notions avancées comme le big data, les réseaux neuronaux et le deep learning. Ce cursus s'adresse à toute personne désireuse d'acquérir des compétences en data science, qu'elle soit débutante

Objectifs

  • Savoir mettre en place un DataLake et un DataMart en SQL ou big data
  • Définir une stratégie de Machine Learning en Python
  • Créer le modèle le plus satisfaisant possible en le mesurant et en affichant les résultats
  • Développer des algorithmes performants

Récapitulatif

Public

Développeur, chef de projets proche du développement, ingénieur scientifique sachant coder

Prérequis

Maîtriser l'algorithmique,
Avoir une appétence pour les mathématiques,
La connaissance de Python et des statistiques est un plus

Méthodes et modalités pédagogiques

Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.

Moyens et supports pédagogiques

Mise à disposition d'un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d'une documentation pédagogique numérique pendant la formation
La formation est constituée d'apports théoriques, d'exercices pratiques et de réflexions
Dans le cas d'une formation sur site Entreprise, le client s'engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard...) au bon déroulement de l'action de formation conformément aux prérequis indiqués dans le programme de formation

Modalités de suivi et d'évaluations

Auto-positionnement des stagiaires avant la formation

Émargement des stagiaires et formateur par 1/2 journée

Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires

Auto-évaluation des acquis de la formation par les stagiaires

Questionnaire de satisfaction à chaud et à froid à l'issue de la formation

Programme détaillé

Introduction aux data sciences

  • Qu'est que la data science ?
  • Qu'est-ce que Python ?
  • Qu'est que le Machine Learning ?
  • Apprentissage supervisé vs non supervisé
  • Les statistiques
  • La randomisation
  • La loi normale

Introduction à Python pour la data science

  • Les bases de Python
  • Les listes
  • Les tuples
  • Les dictionnaires
  • Les modules et packages
  • L'orienté objet
  • Le module math
  • Les expressions lambda
  • Map, reduce et filter
  • Le module CSV
  • Les modules DB-API 2
  • Anaconda

Introduction aux datalakes, datamarts et datawarehouses

  • Qu'est-ce qu'un DataLake ?
  • Les différents types de DataLake
  • Le Big Data
  • Qu'est-ce qu'un DataWharehouse ?
  • Qu'est qu'un DataMart ?
  • Mise en place d'un DataMart
  • Les fichiers
  • Les bases de données SQL
  • Les bases de données No-SQL

Python package installer

  • Utilisation de PIP
  • Installation de package PIP
  • PyPi

Matplotlib

  • Utilisation de la bibliothèque scientifique de graphes MatPlotLib
  • Affichage de données dans un graphique 2D
  • Affichages de sous-graphes
  • Affichage de polynômes et de sinusoïdales

Apprentissage automatique

  • Mise en place d'une machine learning supervisé
  • Qu'est qu'un modèle et un dataset
  • Qu'est qu'une régression
  • Les différents types de régression
  • La régression linéaire
  • Gestion du risque et des erreurs
  • Quarter d'Ascombe
  • Trouver le bon modèle
  • La classification
  • Loi normale, variance et écart type
  • Apprentissage
  • Mesure de la performance
  • No Fee Lunch

La régression linéaire en Python

  • Programmer une régression linéaire en Python
  • Utilisation des expressions lambda et des listes en intention
  • Afficher la régression avec MatPlotLib
  • L'erreur quadratique
  • La variance
  • Le risque

Le big data

  • Qu'est-ce que Apache Hadoop ?
  • Qu'est-ce que l'informatique distribué ?
  • Installation et configuration de Hadoop

HDFS

  • Création d'un datanode
  • Création d'un namenode distribué
  • Manipulation de HDFS
  • Hadoop comme DataLake
  • Map Reduce
  • Hive
  • Hadoop comme DataMart
  • Python HDFS

Les bases de données NoSQL

  • Les bases de données structurées
  • SQL avec SQLite et Postgresql
  • Les bases de données non ACID

Json

  • MongoDB
  • Cassandra, Redis, CouchDb
  • MongoDB sur HDFS
  • MongoDB comme DataMart
  • PyMongo

Numpy et Scipy

  • Les tableaux et les matrices
  • L'algèbre linéaire avec Numpy
  • La régression linéaire SciPy
  • Le produit et la transposée
  • L'inversion de matrice
  • Les nombres complexes
  • L'algèbre complexe
  • Les transformées de Fourier
  • Numpy et Matplotlib

Scikit-learn

  • Le machine Learning avec SKLearn
  • La régression linéaire
  • La création du modèle
  • L'échantillonnage
  • La randomisation
  • L'apprentissage avec fit
  • La prédiction du modèle
  • Les metrics
  • Choix du modèle
  • PreProcessing et Pipeline
  • Régressions non polynomiales

Voisins les plus proches

  • Algorithme des k plus proches voisins (k-NN)
  • Modèle de classification
  • K-NN avec SciKitLearn
  • Choix du meilleur k
  • Sérialisation du modèle
  • Variance vs Erreurs
  • Autres modèles : SVN, Random Forest

Pandas

  • L'analyse des données avec Pandas
  • Les Series
  • Les DataFrames
  • La théorie ensembliste avec Pandas
  • L'importation des données CSV
  • L'importation de données SQL
  • L'importation de données MongoDB
  • Pandas et SKLearn

Le clustering

  • Regroupement des données par clusterisation
  • Les clusters SKLearn avec k-means
  • Autres modèles de clusterisation : AffinityPropagation, MeanShift, ...
  • L'apprentissage semi-supervisé

Jupyter

  • Présentation de Jupyter et Ipython
  • Installation
  • Utilisation de Jupyter avec Mathplotlib et Sklearn

Python yield

  • La programmation efficace en Python
  • Le générateurs et itérateurs
  • Le Yield return
  • Le Yield avec Db-API 2, Pandas et Sklearn

Les réseaux neuronaux

  • Le perceptron
  • Les réseaux neuronaux
  • Les réseaux neuronaux supervisés
  • Les réseaux neuronaux semi-supervisés
  • Les réseaux neuronaux par Hadoop Yarn
  • Les heuristiques
  • Le deep learning
Python, Data Scientist avec Python
Inter
Intra
5 jours (35 heures)
Référence :
MOD_2024856
Formation Inter
2850 € HT
Voir les dates et villes disponibles
5 jours (35 heures)
Référence :
MOD_2024856
Formation Intra

Trouvez la formation qui
répond à vos enjeux

Nos autres formations

Vous aimerez aussi

Être rappelé

Page Formation | Formulaire de contact

Les données saisies dans ce formulaire sont conservées par nos soins afin de pouvoir répondre au mieux à votre demande. Nous accordons de l’importance à la gestion de vos données, en savoir plus sur notre démarche Données Personnelles.

Demander un devis

Page Formation | Formulaire de devis

Les données saisies dans ce formulaire sont conservées par nos soins afin de pouvoir répondre au mieux à votre demande. Nous accordons de l’importance à la gestion de vos données, en savoir plus sur notre démarche Données Personnelles.

Je m'inscris

Page Formation | Formulaire d'inscription

Les données saisies dans ce formulaire sont conservées par nos soins afin de pouvoir répondre au mieux à votre demande. Nous accordons de l’importance à la gestion de vos données, en savoir plus sur notre démarche Données Personnelles.