Description
Cette formation Big Data permet d’acquérir une compréhension globale des architectures et des outils Hadoop utilisés pour le traitement de grands volumes de données. Elle aborde les concepts fondamentaux du Big Data ainsi que les enjeux liés au stockage et à l’analyse des données en entreprise. Les participants apprennent à collecter et traiter des données structurées et non structurées à l’aide de MapReduce. La formation couvre les solutions de stockage distribuées avec HDFS et les bases orientées colonnes avec HBase. L’utilisation des outils de l’écosystème Hadoop, tels que Hive, Pig et HCatalog, est présentée de manière opérationnelle. Les principes du Cloud computing et leur application aux projets Big Data sont intégrés. L’industrialisation des traitements via Spring Data Hadoop est également abordée.
Objectifs
- Comprendre les enjeux du Big Data et les principes fondamentaux des architectures Hadoop
- Collecter, traiter et analyser de grands volumes de données à l'aide des mécanismes MapReduce
- Mettre en œuvre des solutions de stockage distribuées et orientées colonnes avec HDFS et HBase
- Exploiter les outils de l'écosystème Hadoop, notamment Hive, Pig et HCatalog, pour l'analyse et la gestion des données
- Déployer et administrer des workflows Big Data dans des environnements Cloud
- Industrialiser les traitements de données à l'aide de Spring Data Hadoop
Récapitulatif
Public
Développeurs, ingénieurs, architectes techniques, chefs de projets et profils IT impliqués dans des projets data.
Toute personne intervenant sur la collecte, le stockage ou l'analyse de données à grande échelle.
Prérequis
Maîtrise des bases de la programmation, idéalement en Java.
Connaissances générales des systèmes d'information et des architectures applicatives.
Notions de bases de données relationnelles recommandées.
Méthodes et modalités pédagogiques
Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.
Moyens et supports pédagogiques
Mise à disposition d'un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d'une documentation pédagogique numérique pendant la formation
La formation est constituée d'apports théoriques, d'exercices pratiques et de réflexions
Dans le cas d'une formation sur site Entreprise, le client s'engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard...) au bon déroulement de l'action de formation conformément aux prérequis indiqués dans le programme de formation
Modalités de suivi et d'évaluations
Auto-positionnement des stagiaires avant la formation
Émargement des stagiaires et formateur par 1/2 journée
Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires
Auto-évaluation des acquis de la formation par les stagiaires
Questionnaire de satisfaction à chaud et à froid à l'issue de la formation
Programme détaillé
Les fondamentaux du Big Data
- Définir le périmètre et les enjeux du Big Data en entreprise
- Le rôle du projet Hadoop dans les architectures Big Data
- Concepts clés des projets Big Data
- Principes du cloud computing
- Différencier les modèles de cloud privé et de cloud public
- Architectures Big Data basées sur Hadoop
- Cas d'usage concrets de Hadoop et des services Google
- Démonstration : Présentation de l'utilisation d'Hadoop et de Google App Engine
Collecte des données et traitement avec MapReduce
- Analyser les flux de données au sein de l'entreprise
- Distinguer les données structurées et non structurées
- Principes de l'analyse sémantique des données
- Fonctionnement du modèle MapReduce
- Granularité et de cohérence des données
- Mettre en œuvre les transferts de données vers Hadoop depuis un système de persistance
- Importer des données depuis un environnement Cloud vers Hadoop
- Travaux pratiques : Mise en place d'un processus de collecte de données clients via MapReduce, Configuration de l'environnement YARN, Développement d'un traitement MapReduce
Stockage et gestion des données avec HBase
- Comprendre les différents types de bases de données XML
- Identifier les patterns d'usage des bases de données dans un contexte Cloud
- Intégrer une base Hadoop dans un workflow de traitement de données
- Utiliser les projets Hive et Pig pour l'exploitation des données
- Exploiter le projet HCatalog pour la gestion des métadonnées
- l'API Java de HBase
- Travaux pratiques : Gestion et mise à jour d'un catalogue de données fournisseur
Stockage distribué des données avec HDFS
- Comprendre les patterns d'usage du stockage distribué dans le Cloud
- Découvrir l'architecture HDFS : NameNode, DataNode et journalisation
- Installer et configurer un système de fichiers HDFS
- Maîtriser les commandes et opérations courantes d'administration HDFS
- l'API Java HDFS
- Analyser des données avec Apache Pig
- Langage Pig Latin et son utilisation avec Java
- Interroger les données avec Apache Hive
- Réplication et le partage des données sur HDFS
- Travaux pratiques : Administration d'un référentiel client partagé sur Hadoop, Utilisation de la console de visualisation Hadoop
Intégration et industrialisation avec Spring Data Hadoop
- Découvrir les fondamentaux de Spring et Spring Data
- Rôle de Spring Data Hadoop
- Utiliser le namespace Hadoop pour Spring
- Simplifier la configuration Hadoop à l'aide de Spring
- Configurer un cache distribué
- Orchestrer des jobs Hadoop et leurs dépendances
- Intégrer les outils de l'écosystème Hadoop (Pig, Hive, etc.)
- Travaux pratiques : Refonte de la gestion d'un catalogue de données fournisseur avec Spring Data Hadoop