Dans ce chapitre, vous apprendrez à utiliser les notebooks Databricks, à charger des données CSV dans des DataFrames Spark et à mettre les données en forme avec PySpark et SQL.

Utiliser les notebooks Databricks

Comprendre les notebooks Databricks

Charger votre premier jeu de données

Explorer les journaux du driver

Préparer et façonner les données avec PySpark et SQL

Façonner les données avec PySpark

Analyser des données avec SQL

Comprendre les vues temporaires

Chargement et mise en forme des données

Apprenez à définir des schémas explicites, à construire un pipeline de nettoyage des données et à optimiser les performances des requêtes avec des broadcast joins.

Nettoyage des données et contrôles qualité

Pourquoi des schémas explicites sont essentiels

Nettoyer le jeu de données d'e-commerce

Choisir le bon indicateur de qualité

Agréger et joindre des données efficacement

Joindre et agréger des données retail

Comprendre le goulot d'étranglement du shuffle

Quand utiliser une broadcast join

Nettoyage des données et optimisation

Apprenez à calculer des cumuls et des classements avec des fonctions de fenêtre, à créer des pipelines de streaming et à déployer des workflows de production.

Fonctions de fenêtre et requêtes en streaming

Classer les clients avec des fonctions de fenêtrage

Diffuser des données retail vers Delta Lake

Reprendre après un redémarrage

Pipelines de production avec les workflows

Écrire et lire une table Delta

Créer un pipeline de job multi-tâches

Pourquoi passer à Lakeflow ?

Pour conclure

Analytique et pipelines de production

online_retail

transactions

country_lookup

Prêt à traiter des données réelles à grande échelle ? Ce cours vous apprend à transformer de vastes jeux de données avec Spark SQL et PySpark dans Databricks. Vous apprendrez à façonner et nettoyer les données, à exécuter des agrégations avec des jointures optimisées, et à appliquer des fonctions de fenêtre pour des analyses avancées. Vous configurerez aussi un streaming basé sur des fichiers avec des points de contrôle tolérants aux pannes et vous conserverez les résultats sous forme de tables Delta. À la fin, vous orchestrerez des pipelines de production en plusieurs étapes avec Databricks Workflows et Lakeflow Declarative Pipelines.


Introduction to Databricks SQL

Introduction to PySpark

Construisez des pipelines de données de bout en bout : nettoyage, agrégation, streaming, orchestration.

Transformation des données avec Spark SQL dans Databricks

Construisez des pipelines de données de bout en bout, du nettoyage et de l’agrégation au streaming et à l’orchestration.


Associate Data Engineer in Databricks

Pourquoi des schémas explicites sont essentiels

Exercice interactif pratique