Description
Le programme de formation sur les fondamentaux du langage R vise à initier les participants aux concepts clés de la data science. Il aborde l'historique et les caractéristiques de R, ainsi que sa syntaxe de base, les structures de données, et l'importation/exportation de données. Les modules incluent également des techniques de manipulation de données, de visualisation avec ggplot2, et des statistiques descriptives et inférentielles. Destiné aux débutants en data science, ce parcours pratique permet de développer des compétences en machine learning et en développement d'applications web avec Shiny.
Objectifs
- Comprendre les concepts fondamentaux du langage R
- Savoir manipuler les vecteurs, matrices, listes et dataframes
- Réaliser des opérations de data wrangling avec dplyr et tidyr
- Maîtriser les bases de la programmation fonctionnelle avec R
- Produire des graphiques avancés et interactifs avec ggplot2 et plotly
- Conduire des analyses statistiques (tests, modèles linéaires...)
- Mettre en œuvre des techniques de machine learning supervisées et non supervisées
- Développer des applications web interactives avec Shiny
- Intégrer R à d'autres langages et outils dans des projets data science
Récapitulatif
Public
Ingénieurs, Data Analysts, statisticiens, développeurs en environnement statistique
Prérequis
Connaissances en statistiques descriptives et inférentielles
Expérience en programmation appréciée mais non indispensable
Avoir suivi une formation à Python et/ou à la data science est un plus
Méthodes et modalités pédagogiques
Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.
Moyens et supports pédagogiques
Mise à disposition d'un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d'une documentation pédagogique numérique pendant la formation
La formation est constituée d'apports théoriques, d'exercices pratiques et de réflexions
Dans le cas d'une formation sur site Entreprise, le client s'engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard...) au bon déroulement de l'action de formation conformément aux prérequis indiqués dans le programme de formation
Modalités de suivi et d'évaluations
Auto-positionnement des stagiaires avant la formation
Émargement des stagiaires et formateur par 1/2 journée
Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires
Auto-évaluation des acquis de la formation par les stagiaires
Questionnaire de satisfaction à chaud et à froid à l'issue de la formation
Programme détaillé
Fondamentaux de R
Introduction au langage R
- Historique et caractéristiques clés du langage
- Comparaison avec les autres langages data science (Python, SAS, MATLAB...)
- Installation de R et de l'IDE RStudio
Syntaxe et objets de base en R
- Types de données (numeric, character, logical...)
- Opérateurs et fonctions de base
- Bonnes pratiques : conventions de nommage, indentation, commentaires...
Structures de données en R
- Vecteurs et facteurs
- Matrices et arrays
- Listes
- Dataframes
Importation et exportation de données
- Lecture/écriture de fichiers plats (CSV, TXT...)
- Connexion à une base de données
- Scraping de données depuis une page web
Introduction à la programmation fonctionnelle
- Concept d'immutabilité
- Application de fonctions avec lapply/sapply/tapply
- Écriture de fonctions en R
Data wrangling et visualisation
Manipulation de données avec dplyr
- Opérations principales : select, filter, mutate, arrange, summarise...
- Enchaînement d'opérations avec les pipes
- Jointures de dataframes
Reshaping de données avec tidyr
- Passage du format wide au format long avec gather
- Passage du format long au format wide avec spread
- Séparation et combinaison de colonnes
Gestion des données manquantes et des outliers
- Détection et visualisation des valeurs manquantes/aberrantes
- Suppression et imputation des valeurs manquantes
- Gestion des outliers
Data visualisation avec ggplot2
- Concepts clés de la grammaire des graphiques
- Esthétiques, géométries et thèmes
- Création de graphiques avancés : small multiples, graphiques interactifs...
Projet dirigé : Analyse exploratoire d'un jeu de données
- Import, nettoyage et transformation des données
- Analyses univariées et multivariées
- Visualisations avancées et interprétation des résultats
Statistiques avec R
Statistiques descriptives avec R
- Indicateurs de tendance centrale et de dispersion
- Quantiles et boxplots
- Corrélations et associations
Tests statistiques paramétriques
- Tests de comparaison (t-test, ANOVA...)
- Tests d'indépendance (chi-2, test exact de Fisher)
- Corrélations et régressions linéaires simples
Tests statistiques non paramétriques
- Tests de rang (Wilcoxon, Kruskal-Wallis...)
- Corrélations de Spearman
Machine learning avec R
Introduction au machine learning
- Types d'apprentissage : supervisé, non supervisé, par renforcement
- Compromis biais-variance, sur- et sous-apprentissage
- Validation croisée et optimisation des hyperparamètres
Préparation des données pour le ML
- Encodage des variables catégorielles
- Normalisation et standardisation des variables numériques
- Sélection de variables
Algorithmes de ML supervisés
- Régression
- Classification
- Arbres de décision et forêts aléatoires
Algorithmes de ML non supervisés
- Clustering (K-means, hierarchical clustering...)
- Réduction de dimension (ACP, MDS, t-SNE...)
Projet dirigé : Prédiction supervisée sur un jeu de données réel
- Analyse du problème et des données
- Feature engineering et sélection de variables
- Comparaison et optimisation de différents algorithmes
- Interprétation des résultats
Développement et industrialisation avec R
Développement d'applications web avec Shiny
- Composants UI et Server
- Inputs et outputs (widgets, graphiques, tables...)
- Mise en page et thèmes
- Exemples d'applications
Projet fil rouge : développement d'un dashboard Shiny
- Analyse des besoins et maquettage
- Importation et préparation des données
- Création des différents éléments graphiques
- Mise en production du dashboard
Conclusion et perspectives
- Récapitulatif des points clés de la formation
- Panorama des packages R pour la data science
- Ressources pour approfondir et monter en compétences
- Retour d'expérience sur les métiers de la data science