Hadoop, développez des applications Big data

Maîtrisez les fondamentaux du Big Data et de l’écosystème Hadoop pour collecter, stocker et analyser de grands volumes de données.

Partager cette formation :

4 jours (28 heures)

Référence :

MOD_2024470

Formation Inter

2850 € ^HT

4 jours (28 heures)

Référence :

MOD_2024470

Formation Intra

Description Objectifs Récapitulatif Programme détaillé

Description

Cette formation Big Data permet d’acquérir une compréhension globale des architectures et des outils Hadoop utilisés pour le traitement de grands volumes de données. Elle aborde les concepts fondamentaux du Big Data ainsi que les enjeux liés au stockage et à l’analyse des données en entreprise. Les participants apprennent à collecter et traiter des données structurées et non structurées à l’aide de MapReduce. La formation couvre les solutions de stockage distribuées avec HDFS et les bases orientées colonnes avec HBase. L’utilisation des outils de l’écosystème Hadoop, tels que Hive, Pig et HCatalog, est présentée de manière opérationnelle. Les principes du Cloud computing et leur application aux projets Big Data sont intégrés. L’industrialisation des traitements via Spring Data Hadoop est également abordée.

Objectifs

Comprendre les enjeux du Big Data et les principes fondamentaux des architectures Hadoop
Collecter, traiter et analyser de grands volumes de données à l'aide des mécanismes MapReduce
Mettre en œuvre des solutions de stockage distribuées et orientées colonnes avec HDFS et HBase
Exploiter les outils de l'écosystème Hadoop, notamment Hive, Pig et HCatalog, pour l'analyse et la gestion des données
Déployer et administrer des workflows Big Data dans des environnements Cloud
Industrialiser les traitements de données à l'aide de Spring Data Hadoop

Récapitulatif

Public

Développeurs, ingénieurs, architectes techniques, chefs de projets et profils IT impliqués dans des projets data.

Toute personne intervenant sur la collecte, le stockage ou l'analyse de données à grande échelle.

Prérequis

Maîtrise des bases de la programmation, idéalement en Java.

Connaissances générales des systèmes d'information et des architectures applicatives.

Notions de bases de données relationnelles recommandées.

Méthodes et modalités pédagogiques

Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.

Moyens et supports pédagogiques

Mise à disposition d'un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d'une documentation pédagogique numérique pendant la formation
La formation est constituée d'apports théoriques, d'exercices pratiques et de réflexions
Dans le cas d'une formation sur site Entreprise, le client s'engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard...) au bon déroulement de l'action de formation conformément aux prérequis indiqués dans le programme de formation

Modalités de suivi et d'évaluations

Auto-positionnement des stagiaires avant la formation

Émargement des stagiaires et formateur par 1/2 journée

Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires

Auto-évaluation des acquis de la formation par les stagiaires

Questionnaire de satisfaction à chaud et à froid à l'issue de la formation

Programme détaillé

Les fondamentaux du Big Data

Définir le périmètre et les enjeux du Big Data en entreprise
Le rôle du projet Hadoop dans les architectures Big Data
Concepts clés des projets Big Data
Principes du cloud computing
Différencier les modèles de cloud privé et de cloud public
Architectures Big Data basées sur Hadoop
Cas d'usage concrets de Hadoop et des services Google
Démonstration : Présentation de l'utilisation d'Hadoop et de Google App Engine

Collecte des données et traitement avec MapReduce

Analyser les flux de données au sein de l'entreprise
Distinguer les données structurées et non structurées
Principes de l'analyse sémantique des données
Fonctionnement du modèle MapReduce
Granularité et de cohérence des données
Mettre en œuvre les transferts de données vers Hadoop depuis un système de persistance
Importer des données depuis un environnement Cloud vers Hadoop
Travaux pratiques : Mise en place d'un processus de collecte de données clients via MapReduce, Configuration de l'environnement YARN, Développement d'un traitement MapReduce

Stockage et gestion des données avec HBase

Comprendre les différents types de bases de données XML
Identifier les patterns d'usage des bases de données dans un contexte Cloud
Intégrer une base Hadoop dans un workflow de traitement de données
Utiliser les projets Hive et Pig pour l'exploitation des données
Exploiter le projet HCatalog pour la gestion des métadonnées
l'API Java de HBase
Travaux pratiques : Gestion et mise à jour d'un catalogue de données fournisseur

Stockage distribué des données avec HDFS

Comprendre les patterns d'usage du stockage distribué dans le Cloud
Découvrir l'architecture HDFS : NameNode, DataNode et journalisation
Installer et configurer un système de fichiers HDFS
Maîtriser les commandes et opérations courantes d'administration HDFS
l'API Java HDFS
Analyser des données avec Apache Pig
Langage Pig Latin et son utilisation avec Java
Interroger les données avec Apache Hive
Réplication et le partage des données sur HDFS
Travaux pratiques : Administration d'un référentiel client partagé sur Hadoop, Utilisation de la console de visualisation Hadoop

Intégration et industrialisation avec Spring Data Hadoop

Découvrir les fondamentaux de Spring et Spring Data
Rôle de Spring Data Hadoop
Utiliser le namespace Hadoop pour Spring
Simplifier la configuration Hadoop à l'aide de Spring
Configurer un cache distribué
Orchestrer des jobs Hadoop et leurs dépendances
Intégrer les outils de l'écosystème Hadoop (Pig, Hive, etc.)
Travaux pratiques : Refonte de la gestion d'un catalogue de données fournisseur avec Spring Data Hadoop

Toutes les formations Big Data

Intelligence Artificielle, Data Big Data Big Data

Spark - Mise en oeuvre et programmation

Découvrez Spark : ses origines, son fonctionnement et les langages pris en charge. Apprenez à utiliser le Shell avec Scala et Python, à créer des…

3 jours

En savoir plus
Intelligence Artificielle, Data Big Data Big Data

Big Data Foundation

Découvrez le big data : bases, technologies clés (Hadoop, MongoDB), techniques de data mining et préparation à la certification Big Data Foundation.

3 jours

En savoir plus
Intelligence Artificielle, Data Big Data Big Data

Big data - Concept et enjeux

Découvrez les fondamentaux du Big Data : définitions, technologies clés comme Hadoop, et meilleures pratiques pour intégrer efficacement ces concepts dans votre système d'information.

2 jours

En savoir plus
Intelligence Artificielle, Data Big Data Big Data

Hadoop - Architecture et administration de clusters

Maîtrisez les technologies Big Data avec notre formation Hadoop.

3 jours

En savoir plus
Intelligence Artificielle, Data Big Data Big Data

PySpark - Traitement des données

Découvrez les fondamentaux de Hadoop et Spark pour maîtriser le Big Data. Apprenez à manipuler des données avec PySpark, à réaliser des analyses avancées et…

3 jours

En savoir plus

Les données saisies dans ce formulaire sont conservées par nos soins afin de pouvoir répondre au mieux à votre demande. Nous accordons de l’importance à la gestion de vos données, en savoir plus sur notre démarche Données Personnelles.

Hadoop, développez des applications Big data

Description

Objectifs