Spark - Mise en oeuvre et programmation

0 ( avis)

Découvrez Spark : ses origines, son fonctionnement, et intégrez-le avec Scala ou Python. Apprenez à manipuler des RDD, à gérer le streaming et à déployer sur différents clusters, y compris Amazon EC2 et Hadoop, tout en exploitant Cassandra efficacement.

Partager cette formation :

Description Objectifs Récapitulatif Programme détaillé

Description

Ce programme de formation se concentre sur Apache Spark, un framework de traitement de données massives, en détaillant son origine, ses fonctionnalités et son fonctionnement. Les participants apprendront à utiliser Spark avec des langages tels que Scala et Python, à manipuler des RDD, ainsi qu'à gérer le streaming et les clusters. La formation aborde également l'intégration avec Hadoop et Cassandra, offrant une approche pratique et théorique. Elle s'adresse aux professionnels de l'informatique souhaitant approfondir leurs connaissances en traitement de données et en big data.

Objectifs

Mettre en oeuvre Spark pour optimiser des calculs
Développer des applications avec Spark Streaming
Mettre en oeuvre un cluster Spark

Récapitulatif

Public

Chefs de projets, data scientists, développeurs

Prérequis

Avoir connaissance de Java ou Python, des bases Hadoop et des notions de calculs statistiques

Méthodes et modalités pédagogiques

Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.

Moyens et supports pédagogiques

Mise à disposition d'un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d'une documentation pédagogique numérique pendant la formation
La formation est constituée d'apports théoriques, d'exercices pratiques et de réflexions
Dans le cas d'une formation sur site Entreprise, le client s'engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard...) au bon déroulement de l'action de formation conformément aux prérequis indiqués dans le programme de formation

Modalités de suivi et d'évaluations

Auto-positionnement des stagiaires avant la formation

Émargement des stagiaires et formateur par 1/2 journée

Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires

Auto-évaluation des acquis de la formation par les stagiaires

Questionnaire de satisfaction à chaud et à froid à l'issue de la formation

Programme détaillé

Introduction

Présentation de Spark
Origine du projet
Apports
Principe de fonctionnement
Langages supportés

Premiers pas

Utilisation du Shell Spark avec Scala ou Python
Gestion du cache

Règles de développement

Mise en pratique en Java et Python
Notion de contexte Spark
Différentes méthodes de création des RDD
- Depuis un fichier texte, un stockage externe
Manipulations sur les RDD (Resilient Distributed Dataset)
- Fonctions
- Gestion de la persistance

Streaming

Objectifs
Principe de fonctionnement
Notion de StreamingContext
DStreams
Démonstrations

Cluster

Différents cluster managers
- Spark en autonome
- Mesos
- YARN
- Amazon EC2
Architecture
- SparkContext
- Cluster manager
- Executor sur chaque nœud
Définitions
- Driver program
- Cluster manager
- Deploy mode
- Executor
- Task
- Job
Mise en oeuvre avec Spark et Amazon EC2
Soumission de jobs
Supervision depuis l'interface Web

Intégration Hadoop

Création et exploitation d'un cluster Spark / YARN

Support Cassandra

Description rapide de l'architecture Cassandra
Mise en oeuvre depuis Spark
Exécution de travaux Spark s'appuyant sur une grappe Cassandra

Spark - Mise en oeuvre et programmation

3 jours (21 heures)

Référence :

MOD_2024973

Formation Inter

2650 € ^HT

Voir les dates et villes disponibles

3 jours (21 heures)

Référence :

MOD_2024973

Formation Intra

Découvrez toutes les formations

Intelligence Artificielle, Data Big Data Big Data

Big data - Concept et enjeux

Plongez dans l'univers du Big Data : comprenez ses définitions, technologies et structures essentielles, explorez Hadoop et le NoSQL, et découvrez comment exploiter efficacement vos…

Prochaine session:

Aucune session prévue
Intelligence Artificielle, Data Big Data Big Data

Hadoop - Architecture et administration de clusters

Maîtrisez les technologies Big Data et l'écosystème Hadoop grâce à une formation pratique. Apprenez le stockage, le déploiement, et l'administration de clusters tout en intégrant…

Prochaine session:

Aucune session prévue
Intelligence Artificielle, Data Big Data Big Data

Big Data Foundation

Maîtrisez les bases du Big Data : historique, définitions, technologies clés comme Hadoop et MongoDB, sans oublier l'éthique. Apprenez à exploiter les données d'entreprise et…

Prochaine session:

Aucune session prévue
Intelligence Artificielle, Data Big Data Big Data

PySpark - Traitement des données

Explorez le monde du Big Data avec notre formation sur Hadoop et Spark. Apprenez à manipuler et analyser des données, à utiliser PySpark pour le…

Prochaine session:

Aucune session prévue
Intelligence Artificielle, Data Big Data Big Data

Hortonworks

Maîtrisez le Big Data avec Hadoop : installez et configurez l'environnement, gérez les droits utilisateurs, optimisez HDFS et YARN, assurez la haute disponibilité, suivez les…

Prochaine session:

Aucune session prévue
Intelligence Artificielle, Data Big Data Big Data

Hadoop - Développement

Maîtrisez le framework Hadoop et ses composants essentiels, notamment HDFS, YARN, MapReduce et Spark. Apprenez à configurer des jobs, à utiliser Pig et Hive, et…

Prochaine session:

Aucune session prévue

Les données saisies dans ce formulaire sont conservées par nos soins afin de pouvoir répondre au mieux à votre demande. Nous accordons de l’importance à la gestion de vos données, en savoir plus sur notre démarche Données Personnelles.

Spark - Mise en oeuvre et programmation

Description

Objectifs