Une introduction générale à PySpark et au calcul distribué. Cette section présente PySpark, les DataFrames PySpark et les RDD.

Introduction à PySpark

Créer une SparkSession

Charger des données de recensement

Introduction aux DataFrames PySpark

Scalabilité et performance

Lire un CSV et effectuer des agrégations

Filtrer par entreprise

Aller plus loin avec les DataFrames Spark

Inférer et filtrer

Définir le schéma

Introduction à Apache Spark et PySpark

Poursuite sur les DataFrames et les types de données complexes. Cette section développe les possibilités des DataFrames dans PySpark et introduit quelques concepts de Spark SQL.

Manipulation de données avec les DataFrames

Gérer les données manquantes avec fill et drop

Opérations sur les colonnes : création et renommage de colonnes

Opérations avancées sur les DataFrames

Combinaisons de DataFrames

Associer les vols à leurs aéroports de destination

Vous le définissez ? Vous l’utilisez !

UDF définie

Entiers dans les UDF PySpark

Pandas UDF

PySpark en Python

Approfondissez l’usage de Spark SQL et PySpark pour un traitement des données à l’échelle, en combinant la simplicité de SQL et la puissance du calcul distribué de PySpark pour gérer efficacement de grands ensembles de données.

Jeux de données distribués résilients (RDD) dans PySpark

Créer des RDD

Collecter des RDD

Introduction à Spark SQL

Interroger une vue temporaire

Exécuter du SQL sur des DataFrames

Analyser avec SQL sur des DataFrames

Agrégations PySpark

Agrégations avec PySpark

Agréger avec des RDD

Agrégations complexes

PySpark à l’échelle

Broadcasting

Mettons tout en pratique I

Rassembler le tout II

Qu’avons-nous appris ?

Introduction à PySpark SQL

Transportation

Salaries

Adults

Course Glossary

Ce cours s’adresse aux data engineers, data scientists et professionnels du Machine Learning qui souhaitent travailler sur de grands volumes de données avec PySpark. Vous découvrirez la rapidité et l’évolutivité d’Apache Spark, apprendrez à créer des sessions Spark, à utiliser les RDD et à manipuler des DataFrames au travers d’exercices pratiques. Le cours couvre également PySpark SQL : vous y verrez comment interroger des données en SQL, gérer les schémas et les types complexes, et optimiser les performances dans des environnements distribués. À la fin, vous maîtriserez les bases pour traiter et analyser des données massives, ouvrant la voie à des applications avancées comme le Machine Learning et l’analytique Big Data.

Les vidéos incluent des transcriptions synchronisées que vous pouvez afficher en cliquant sur "Show transcript" en bas à gauche des vidéos.
Le glossaire du cours se trouve à droite, dans la section des ressources.
Pour obtenir des crédits CPE, vous devez terminer le cours et atteindre un score de 70 % à l’évaluation qualifiante. Vous pouvez accéder à l’évaluation en cliquant sur l’encadré relatif aux crédits CPE sur la droite.

Ce cours est idéal pour les ingénieurs de données, les scientifiques de données et les praticiens du machine learning qui souhaitent travailler efficacement avec des ensembles de données volumineux. Que vous soyez en train de passer d'outils tels que Pandas ou que vous vous lanciez pour la première fois dans les technologies du big data, ce cours offre une introduction solide à PySpark et au traitement distribué des données.<br><br>
<h2>Pourquoi choisir Spark ? Pourquoi pas ?</h2>
Découvrez la rapidité et l'évolutivité de Spark, le puissant framework conçu pour traiter le big data. Grâce à des cours interactifs et des exercices pratiques, vous découvrirez comment le traitement en mémoire de Spark lui confère un avantage par rapport aux frameworks traditionnels tels que Hadoop. Vous commencerez par configurer des sessions Spark et vous plongerez dans les composants essentiels tels que les ensembles de données distribués résilients (RDD) et les DataFrame. Apprenez à filtrer, regrouper et joindre des ensembles de données avec aisance tout en travaillant sur des exemples concrets.<br><br>
<h2>Améliorez vos compétences en Python et SQL pour le Big Data</h2>
Découvrez comment exploiter PySpark SQL pour interroger et gérer des données à l'aide d'une syntaxe SQL familière. Apprenez à gérer les schémas, les types de données complexes et les fonctions définies par l'utilisateur (UDF), tout en développant vos compétences en matière de mise en cache et d'optimisation des performances pour les systèmes distribués.<br><br>
<h2>Élaborez les fondements de votre stratégie Big Data</h2>
À la fin de ce cours, vous serez en mesure de manipuler, interroger et traiter des données volumineuses à l'aide de PySpark. Grâce à ces compétences fondamentales, vous serez prêt à explorer des sujets avancés tels que l'apprentissage automatique et l'analyse des mégadonnées.

Introduction to SQL

Data Manipulation with pandas

Maîtrisez PySpark pour gérer facilement les big data : traitez, interrogez et optimisez des ensembles massifs !

Maîtrisez PySpark pour traiter, analyser et optimiser de grands volumes de données et produire des analyses performantes.

Associate Data Engineer in Databricks

Big Data avec PySpark

Chercheur en apprentissage automatique en Python

Ingénieur professionnel en données en Python

Variable	Description
age	Âge de l’individu
education_num	Niveau d’études (en diplômes)
marital_status	Statut marital
occupation	Profession
income	Revenu catégoriel

Définir le schéma

Instructions de l’exercice

Exercice interactif pratique