Description
Ce programme de formation se concentre sur Apache Spark, un framework de traitement de données massives, en détaillant son origine, ses fonctionnalités et son fonctionnement. Les participants apprendront à utiliser Spark avec des langages tels que Scala et Python, à manipuler des RDD, ainsi qu'à gérer le streaming et les clusters. La formation aborde également l'intégration avec Hadoop et Cassandra, offrant une approche pratique et théorique. Elle s'adresse aux professionnels de l'informatique souhaitant approfondir leurs connaissances en traitement de données et en big data.
Objectifs
- Mettre en oeuvre Spark pour optimiser des calculs
- Développer des applications avec Spark Streaming
- Mettre en oeuvre un cluster Spark
Récapitulatif
Public
Chefs de projets, data scientists, développeurs
Prérequis
Avoir connaissance de Java ou Python, des bases Hadoop et des notions de calculs statistiques
Méthodes et modalités pédagogiques
Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.
Moyens et supports pédagogiques
Mise à disposition d'un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d'une documentation pédagogique numérique pendant la formation
La formation est constituée d'apports théoriques, d'exercices pratiques et de réflexions
Dans le cas d'une formation sur site Entreprise, le client s'engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard...) au bon déroulement de l'action de formation conformément aux prérequis indiqués dans le programme de formation
Modalités de suivi et d'évaluations
Auto-positionnement des stagiaires avant la formation
Émargement des stagiaires et formateur par 1/2 journée
Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires
Auto-évaluation des acquis de la formation par les stagiaires
Questionnaire de satisfaction à chaud et à froid à l'issue de la formation
Programme détaillé
Introduction
- Présentation de Spark
- Origine du projet
- Apports
- Principe de fonctionnement
- Langages supportés
Premiers pas
- Utilisation du Shell Spark avec Scala ou Python
- Gestion du cache
Règles de développement
- Mise en pratique en Java et Python
- Notion de contexte Spark
- Différentes méthodes de création des RDD
- - Depuis un fichier texte, un stockage externe
- Manipulations sur les RDD (Resilient Distributed Dataset)
- - Fonctions
- - Gestion de la persistance
Streaming
- Objectifs
- Principe de fonctionnement
- Notion de StreamingContext
- DStreams
- Démonstrations
Cluster
- Différents cluster managers
- - Spark en autonome
- - Mesos
- - YARN
- - Amazon EC2
- Architecture
- - SparkContext
- - Cluster manager
- - Executor sur chaque nœud
- Définitions
- - Driver program
- - Cluster manager
- - Deploy mode
- - Executor
- - Task
- - Job
- Mise en oeuvre avec Spark et Amazon EC2
- Soumission de jobs
- Supervision depuis l'interface Web
Intégration Hadoop
- Création et exploitation d'un cluster Spark / YARN
Support Cassandra
- Description rapide de l'architecture Cassandra
- Mise en oeuvre depuis Spark
- Exécution de travaux Spark s'appuyant sur une grappe Cassandra