Description
Ce programme de formation sur Hadoop s'adresse aux professionnels souhaitant acquérir des compétences en traitement de données massives. Il couvre les fonctionnalités essentielles du framework Hadoop, notamment HDFS, YARN, et MapReduce, ainsi que des outils complémentaires comme Pig et Hive. Les participants apprendront à configurer et exécuter des jobs MapReduce, à utiliser le streaming et à manipuler des données avec Pig et Hive. La formation inclut également des aspects de sécurité et de gestion des accès, garantissant une compréhension complète de l'écosystème Hadoop.
Objectifs
- Connaître les principes du framework Hadoop
- Mettre en œuvre les fonctionnalités du framework Hadoop
- Développer des algorithmes parallèles efficaces avec MapReduce
- Utiliser la technologie MapReduce pour paralléliser des calculs
Récapitulatif
Public
Chefs de projets, développeurs, data scientists et toute personne souhaitant comprendre les techniques de développement avec MapReduce dans l'environnement Hadoop
Prérequis
Avoir la connaissance d'un langage de programmation objet comme Java
Méthodes et modalités pédagogiques
Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.
Moyens et supports pédagogiques
Mise à disposition d'un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d'une documentation pédagogique numérique pendant la formation
La formation est constituée d'apports théoriques, d'exercices pratiques et de réflexions
Dans le cas d'une formation sur site Entreprise, le client s'engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard...) au bon déroulement de l'action de formation conformément aux prérequis indiqués dans le programme de formation
Modalités de suivi et d'évaluations
Auto-positionnement des stagiaires avant la formation
Émargement des stagiaires et formateur par 1/2 journée
Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires
Auto-évaluation des acquis de la formation par les stagiaires
Questionnaire de satisfaction à chaud et à froid à l'issue de la formation
Programme détaillé
Introduction
- Les fonctionnalités du framework Hadoop
- Le projet et les modules
- Hadoop Common
HDFS
Yarn
- Spark
- MapReduce
- Utilisation de YARN pour piloter les jobs MapReduce
MapReduce
- Principe et objectifs du modèle de programmation MapReduce
- Fonctions "map" et "reduce"
- Couples (clés, valeurs)
- Implémentation par le framework Hadoop
- Etude de la collection d'exemples
- Rédaction d'un premier programme et exécution avec Hadoop
Programmation
- Configuration des jobs
- Notion de configuration
- Les interfaces principales (Mapper, Reducer)
- La chaîne de production
- Entrées
- Input splits
- Mapper
- Combiner
- Shuffle / sort
- Reducer
- Sortie
- Partitioner
- OutputCollector
- Codecs
- Compresseurs
- Format des entrées et sorties d'un job MapReduce
- InputFormat
- OutputFormat
- Type personnalisé : création d'un Writable spécifique
- Utilisation
- Contraintes
Outils complémentaires
- Mise en oeuvre du cache distribué
- Paramétrage d'un job
- ToolRunner
- Transmission de propriétés
- Accès à des systèmes externes
S3
HDFS
Har
- Répartition du job sur la ferme au travers de YARN
Streaming
- Définition du streaming MapReduce
- Création d'un job MapReduce dans Python
- Répartition sur la ferme
- Avantages et inconvénients
- Liaisons avec des systèmes externes
- Introduction au pont Hadoop
- Suivi d'un job en streaming
Pig
- Pattern et best practices MapReduce
- Introduction à Pig
- Caractéristiques du langage : latin
- Installation / lancement
- Ecriture d'un script Pig
- Les fonctions de bases
- Ajouts de fonctions personnalisées
- Les UDF
- Mise en oeuvre
Hive
- Simplification du requêtage
- Syntaxe de base
- Création de tables
- Ecriture de requêtes
- Comparaison Pig / Hive
Sécurité en environnement Hadoop
- Mécanisme de gestion de l'authentification
- Configuration des ACL