PySpark - Traitement des données

0 ( avis)

Explorez le monde du Big Data avec notre formation sur Hadoop et Spark. Apprenez à manipuler et analyser des données, à utiliser PySpark pour le machine learning, et à maîtriser Spark Streaming et SQL pour optimiser vos projets de données.

Partager cette formation :

Description Objectifs Récapitulatif Programme détaillé

Description

Ce programme de formation offre une introduction complète à Hadoop et Spark, deux technologies essentielles dans le domaine du Big Data. Les participants exploreront l'architecture de Hadoop, ses composants tels que HDFS et MapReduce, ainsi que les fonctionnalités de Spark, y compris RDD, DataFrames et PySpark. La formation couvre également l'installation de Spark, la manipulation de données avec SparkSQL, l'apprentissage automatique via Spark.ML, et l'utilisation de Spark Streaming pour le traitement en temps réel. Ce programme s'adresse aux professionnels souhaitant acquérir des compétences pratiques en gestion et analyse de données

Objectifs

Comprendre le principe de fonctionnement de Spark
Utiliser l'API PySpark pour interagir avec Spark en Python
Utiliser les méthodes de Machine Learning avec la librairie MLlib de Spark
Traiter les flux de données avec Spark Streaming
Manipuler les données avec Spark SQL

Récapitulatif

Public

Développeurs, Data analysts, Data scientists, architectes Big Data et toute personne souhaitant acquérir des connaissances dans le domaine de la Data Science et sur Spark

Prérequis

Avoir des notions de SQL et des connaissances de base en mathématiques et statistiques
Une première expérience en programmation Python est requise

Méthodes et modalités pédagogiques

Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.

Moyens et supports pédagogiques

Mise à disposition d'un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d'une documentation pédagogique numérique pendant la formation
La formation est constituée d'apports théoriques, d'exercices pratiques et de réflexions
Dans le cas d'une formation sur site Entreprise, le client s'engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard...) au bon déroulement de l'action de formation conformément aux prérequis indiqués dans le programme de formation

Modalités de suivi et d'évaluations

Auto-positionnement des stagiaires avant la formation

Émargement des stagiaires et formateur par 1/2 journée

Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires

Auto-évaluation des acquis de la formation par les stagiaires

Questionnaire de satisfaction à chaud et à froid à l'issue de la formation

Programme détaillé

Introduction à Hadoop

L'ère du Big Data
Architecture et composants de la plateforme Hadoop

HDFS

NameNode / DataNode / ResourceManager
MapReduce et YARN

Introduction à Spark

Qu'est-ce que Spark ?
Spark vs MapReduce
Fonctionnement

Rdd

DataFrames
Data Sets
Comment interagir avec Spark ?
PySpark : programmer avec Spark en Python

Installation de Spark

Sur une infrastructure distribuée
En local

Spark pour la manipulation des données - PySpark

Utilisation de SparkSQL et des DataFrames pour manipuler des données
Charger des données depuis Hadoop, depuis des fichiers CSV, texte, JSON...
Transformer des données (création de DataFrames, ajout de colonnes, filtres...)

Utilisation de Spark.ML pour le machine learning

Apprentissage supervisé
Forêts aléatoires avec Spark
Mise en place d'un outil de recommandation
Traitement de données textuelles
Automatiser vos analyses avec des pipelines

Spark Streaming

Introduction à Spark Streaming
La notion de "DStream"
Principales sources de données
Utilisation de l'API
Manipulation des données

Spark SQL

Initialisation à Spark SQL
Création de DataFrames
Manipulation des DataFrames (opérations basiques, agrégations et groupBy, missing data)
Chargement et stockage de données (avec Hive, JSON...)

Démonstration GraphX et GraphFrames

Présentation de GraphX
Principe de création des graphes
API GraphX
Présentation de GraphFrames
GraphX vs GraphFrames

PySpark - Traitement des données

3 jours (21 heures)

Référence :

MOD_2024854

Formation Inter

2750 € ^HT

Voir les dates et villes disponibles

3 jours (21 heures)

Référence :

MOD_2024854

Formation Intra

Découvrez toutes les formations

Intelligence Artificielle, Data Big Data Big Data

Hadoop - Architecture et administration de clusters

Maîtrisez les technologies Big Data et l'écosystème Hadoop grâce à une formation pratique. Apprenez le stockage, le déploiement, et l'administration de clusters tout en intégrant…

Prochaine session:

Aucune session prévue
Intelligence Artificielle, Data Big Data Big Data

Big data - Concept et enjeux

Plongez dans l'univers du Big Data : comprenez ses définitions, technologies et structures essentielles, explorez Hadoop et le NoSQL, et découvrez comment exploiter efficacement vos…

Prochaine session:

Aucune session prévue
Intelligence Artificielle, Data Big Data Big Data

Hadoop - Développement

Maîtrisez le framework Hadoop et ses composants essentiels, notamment HDFS, YARN, MapReduce et Spark. Apprenez à configurer des jobs, à utiliser Pig et Hive, et…

Prochaine session:

Aucune session prévue
Intelligence Artificielle, Data Big Data Big Data

Hortonworks

Maîtrisez le Big Data avec Hadoop : installez et configurez l'environnement, gérez les droits utilisateurs, optimisez HDFS et YARN, assurez la haute disponibilité, suivez les…

Prochaine session:

Aucune session prévue
Intelligence Artificielle, Data Big Data Big Data

Big Data Foundation

Maîtrisez les bases du Big Data : historique, définitions, technologies clés comme Hadoop et MongoDB, sans oublier l'éthique. Apprenez à exploiter les données d'entreprise et…

Prochaine session:

Aucune session prévue
Intelligence Artificielle, Data Big Data Big Data

Spark - Mise en oeuvre et programmation

Découvrez Spark : ses origines, son fonctionnement, et intégrez-le avec Scala ou Python. Apprenez à manipuler des RDD, à gérer le streaming et à déployer…

Prochaine session:

Aucune session prévue

Les données saisies dans ce formulaire sont conservées par nos soins afin de pouvoir répondre au mieux à votre demande. Nous accordons de l’importance à la gestion de vos données, en savoir plus sur notre démarche Données Personnelles.

PySpark - Traitement des données

Description

Objectifs