Description
Ce programme de formation offre une introduction complète à Hadoop et Spark, deux technologies essentielles dans le domaine du Big Data. Les participants exploreront l'architecture de Hadoop, ses composants tels que HDFS et MapReduce, ainsi que les fonctionnalités de Spark, y compris RDD, DataFrames et PySpark. La formation couvre également l'installation de Spark, la manipulation de données avec SparkSQL, l'apprentissage automatique via Spark.ML, et l'utilisation de Spark Streaming pour le traitement en temps réel. Ce programme s'adresse aux professionnels souhaitant acquérir des compétences pratiques en gestion et analyse de données
Objectifs
- Comprendre le principe de fonctionnement de Spark
- Utiliser l'API PySpark pour interagir avec Spark en Python
- Utiliser les méthodes de Machine Learning avec la librairie MLlib de Spark
- Traiter les flux de données avec Spark Streaming
- Manipuler les données avec Spark SQL
Récapitulatif
Public
Développeurs, Data analysts, Data scientists, architectes Big Data et toute personne souhaitant acquérir des connaissances dans le domaine de la Data Science et sur Spark
Prérequis
Avoir des notions de SQL et des connaissances de base en mathématiques et statistiques
Une première expérience en programmation Python est requise
Méthodes et modalités pédagogiques
Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.
Moyens et supports pédagogiques
Mise à disposition d'un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d'une documentation pédagogique numérique pendant la formation
La formation est constituée d'apports théoriques, d'exercices pratiques et de réflexions
Dans le cas d'une formation sur site Entreprise, le client s'engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard...) au bon déroulement de l'action de formation conformément aux prérequis indiqués dans le programme de formation
Modalités de suivi et d'évaluations
Auto-positionnement des stagiaires avant la formation
Émargement des stagiaires et formateur par 1/2 journée
Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires
Auto-évaluation des acquis de la formation par les stagiaires
Questionnaire de satisfaction à chaud et à froid à l'issue de la formation
Programme détaillé
Introduction à Hadoop
- L'ère du Big Data
- Architecture et composants de la plateforme Hadoop
HDFS
- NameNode / DataNode / ResourceManager
- MapReduce et YARN
Introduction à Spark
- Qu'est-ce que Spark ?
- Spark vs MapReduce
- Fonctionnement
Rdd
- DataFrames
- Data Sets
- Comment interagir avec Spark ?
- PySpark : programmer avec Spark en Python
Installation de Spark
- Sur une infrastructure distribuée
- En local
Spark pour la manipulation des données - PySpark
- Utilisation de SparkSQL et des DataFrames pour manipuler des données
- Charger des données depuis Hadoop, depuis des fichiers CSV, texte, JSON...
- Transformer des données (création de DataFrames, ajout de colonnes, filtres...)
Utilisation de Spark.ML pour le machine learning
- Apprentissage supervisé
- Forêts aléatoires avec Spark
- Mise en place d'un outil de recommandation
- Traitement de données textuelles
- Automatiser vos analyses avec des pipelines
Spark Streaming
- Introduction à Spark Streaming
- La notion de "DStream"
- Principales sources de données
- Utilisation de l'API
- Manipulation des données
Spark SQL
- Initialisation à Spark SQL
- Création de DataFrames
- Manipulation des DataFrames (opérations basiques, agrégations et groupBy, missing data)
- Chargement et stockage de données (avec Hive, JSON...)
Démonstration GraphX et GraphFrames
- Présentation de GraphX
- Principe de création des graphes
- API GraphX
- Présentation de GraphFrames
- GraphX vs GraphFrames