Accueil > Nos Formations > Intelligence Artificielle, Data > Big Data > Big Data > PySpark – Traitement des données

PySpark - Traitement des données

0 ( avis)

Explorez le monde du Big Data avec notre formation sur Hadoop et Spark. Apprenez à manipuler et analyser des données, à utiliser PySpark pour le machine learning, et à maîtriser Spark Streaming et SQL pour optimiser vos projets de données.

Description Objectifs Récapitulatif Programme détaillé

Description

Ce programme de formation offre une introduction complète à Hadoop et Spark, deux technologies essentielles dans le domaine du Big Data. Les participants exploreront l'architecture de Hadoop, ses composants tels que HDFS et MapReduce, ainsi que les fonctionnalités de Spark, y compris RDD, DataFrames et PySpark. La formation couvre également l'installation de Spark, la manipulation de données avec SparkSQL, l'apprentissage automatique via Spark.ML, et l'utilisation de Spark Streaming pour le traitement en temps réel. Ce programme s'adresse aux professionnels souhaitant acquérir des compétences pratiques en gestion et analyse de données

Objectifs

  • Comprendre le principe de fonctionnement de Spark
  • Utiliser l'API PySpark pour interagir avec Spark en Python
  • Utiliser les méthodes de Machine Learning avec la librairie MLlib de Spark
  • Traiter les flux de données avec Spark Streaming
  • Manipuler les données avec Spark SQL

Récapitulatif

Public

Développeurs, Data analysts, Data scientists, architectes Big Data et toute personne souhaitant acquérir des connaissances dans le domaine de la Data Science et sur Spark

Prérequis

Avoir des notions de SQL et des connaissances de base en mathématiques et statistiques
Une première expérience en programmation Python est requise

Méthodes et modalités pédagogiques

Formation réalisée en Présentiel, Distanciel ou Dual-Learning selon la formule retenue.

Moyens et supports pédagogiques

Mise à disposition d'un poste de travail sur nos formations en Présentiel.
Mise à disposition de nos environnements de visio sur nos formations en Distanciel
Remise d'une documentation pédagogique numérique pendant la formation
La formation est constituée d'apports théoriques, d'exercices pratiques et de réflexions
Dans le cas d'une formation sur site Entreprise, le client s'engage à avoir toutes les ressources pédagogiques nécessaires (salle, équipements, accès internet, TV ou Paperboard...) au bon déroulement de l'action de formation conformément aux prérequis indiqués dans le programme de formation

Modalités de suivi et d'évaluations

Auto-positionnement des stagiaires avant la formation

Émargement des stagiaires et formateur par 1/2 journée

Exercices de mise en pratique ou quiz de connaissances tout au long de la formation permettant de mesurer la progression des stagiaires

Auto-évaluation des acquis de la formation par les stagiaires

Questionnaire de satisfaction à chaud et à froid à l'issue de la formation

Programme détaillé

Introduction à Hadoop

  • L'ère du Big Data
  • Architecture et composants de la plateforme Hadoop

HDFS

  • NameNode / DataNode / ResourceManager
  • MapReduce et YARN

Introduction à Spark

  • Qu'est-ce que Spark ?
  • Spark vs MapReduce
  • Fonctionnement

Rdd

  • DataFrames
  • Data Sets
  • Comment interagir avec Spark ?
  • PySpark : programmer avec Spark en Python

Installation de Spark

  • Sur une infrastructure distribuée
  • En local

Spark pour la manipulation des données - PySpark

  • Utilisation de SparkSQL et des DataFrames pour manipuler des données
  • Charger des données depuis Hadoop, depuis des fichiers CSV, texte, JSON...
  • Transformer des données (création de DataFrames, ajout de colonnes, filtres...)

Utilisation de Spark.ML pour le machine learning

  • Apprentissage supervisé
  • Forêts aléatoires avec Spark
  • Mise en place d'un outil de recommandation
  • Traitement de données textuelles
  • Automatiser vos analyses avec des pipelines

Spark Streaming

  • Introduction à Spark Streaming
  • La notion de "DStream"
  • Principales sources de données
  • Utilisation de l'API
  • Manipulation des données

Spark SQL

  • Initialisation à Spark SQL
  • Création de DataFrames
  • Manipulation des DataFrames (opérations basiques, agrégations et groupBy, missing data)
  • Chargement et stockage de données (avec Hive, JSON...)

Démonstration GraphX et GraphFrames

  • Présentation de GraphX
  • Principe de création des graphes
  • API GraphX
  • Présentation de GraphFrames
  • GraphX vs GraphFrames
PySpark - Traitement des données
Inter
Intra
3 jours (21 heures)
Référence :
MOD_2024854
Formation Inter
2750 € HT
Voir les dates et villes disponibles
3 jours (21 heures)
Référence :
MOD_2024854
Formation Intra

Trouvez la formation qui
répond à vos enjeux

Nos autres formations

Vous aimerez aussi

Être rappelé

Page Formation | Formulaire de contact

Les données saisies dans ce formulaire sont conservées par nos soins afin de pouvoir répondre au mieux à votre demande. Nous accordons de l’importance à la gestion de vos données, en savoir plus sur notre démarche Données Personnelles.

Demander un devis

Page Formation | Formulaire de devis

Les données saisies dans ce formulaire sont conservées par nos soins afin de pouvoir répondre au mieux à votre demande. Nous accordons de l’importance à la gestion de vos données, en savoir plus sur notre démarche Données Personnelles.

Je m'inscris

Page Formation | Formulaire d'inscription

Les données saisies dans ce formulaire sont conservées par nos soins afin de pouvoir répondre au mieux à votre demande. Nous accordons de l’importance à la gestion de vos données, en savoir plus sur notre démarche Données Personnelles.