Description
Cette formation sur le rôle du data scientist dans l'entreprise vise à développer des compétences essentielles pour analyser et traiter des données variées. Les participants apprendront à utiliser des langages de programmation tels que R et Python, ainsi que des outils comme Hadoop et Weka. Le programme couvre l'analyse exploratoire des données, les algorithmes de classification et de clustering, ainsi que la mise en œuvre de modèles prédictifs. Destinée aux professionnels souhaitant se spécialiser dans l'analyse de données, cette formation aborde également des enjeux éthiques liés à l'utilisation des données.
Objectifs
- Appréhender les différentes facettes du métier de Data Scientist
- Appréhender la collecte de données, l'identification de mesures aberrantes
- Apréhender l'analyse de texte, les modèles prédictifs...
- Mener des analyses exploratoires pour identifier des opportunités de service
- Choisir des supports visuels à fort impact pour communiquer vos résultats
- Connecter les différences sources de données à un entrepôt de données
- Croiser les différences sources de données avec des sources externes
- Tester les algorithmes sur des sous-ensembles de données
- Exploiter Hadoop et les plateformes de calcul distribué
- Représenter les résultats de façon graphique et concise
Récapitulatif
Public
Développeurs, statisticiens et Business Analysts
Prérequis
Connaissance d'un langage de script (Python ou R)
Connaissances de bases en statistiques et/ou méthodes numériques
Expérience du shell sous Linux
Méthodes et modalités pédagogiques
Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.
Moyens et supports pédagogiques
Mise à disposition d'un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d'une documentation pédagogique numérique pendant la formation
La formation est constituée d'apports théoriques, d'exercices pratiques et de réflexions
Dans le cas d'une formation sur site Entreprise, le client s'engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard...) au bon déroulement de l'action de formation conformément aux prérequis indiqués dans le programme de formation
Modalités de suivi et d'évaluations
Auto-positionnement des stagiaires avant la formation
Émargement des stagiaires et formateur par 1/2 journée
Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires
Auto-évaluation des acquis de la formation par les stagiaires
Questionnaire de satisfaction à chaud et à froid à l'issue de la formation
Programme détaillé
Le data scientist et son rôle dans l'entreprise
- Fiche d'identité et profils chez LinkedIn, Amazon, Facebook...
- Les compétences recherchées
La boîte à outils du data scientist
- Langages de script : R, Python
- Langages compilés: C/C++, Java/Clojure
- Plateformes et frameworks: Hadoop, Mahout, Weka, Orange
Typologie de données
- Données structurées et non structurées
- Documents texte, emails, logs
- Séries temporelles, données spatiales
- Transactions (e-commerce, banque)
- Télécoms et données d'appel
- TP : collecte de données web publiques
L'analyse exploratoire
- Qualifier les données
- Détecter les tendances, patterns récurrents et anomalies
- Gérer les outliers
- Versionner son code
- Comment organiser une chaîne de traitement : Make, Camel
- TP : mise en place d'une chaîne évolutive de traitement de données
Algorithmes
- Clustering
- Corrélation et Frequent Itemset
- Classification et prédiction
- Analyse de séquences, filtrage et modèles de Markov
- Méthodes d'ensemble
Plateformes et environnements pour la fouille de données
- Pig/Hive et Mahout
- Introduction à Weka
- Python et Numpy, Scipy
R
Applications
- Moteurs de recommandation
- Optimisation d'allocation de ressources
- Identification d'anomalies
- TP : conception d'un moteur de recommandation d'articles web
Mise en œuvre
- Validation d'un modèle – jeux d'apprentissage, test et courbes ROC
- Déploiement : l'atout "DevOps"
- Passage à l'échelle: l'avantage MapReduce
- Intégration à Hadoop
- Visualisation de jeux de données massives
- Publier via une IHM web: D3.js
Penser les impacts sociaux
- Effets indirects d'une approche orientée données
- La CNIL, devoirs d'éthique et le respect de la vie privée