In diesem Kapitel lernst du, wie du mit Databricks-Notebooks arbeitest, CSV-Daten in Spark DataFrames lädst und Daten mit PySpark und SQL formst.

Arbeiten mit Databricks-Notebooks

Databricks-Notebooks verstehen

Deinen ersten Datensatz laden

Driver-Logs erkunden

Daten mit PySpark und SQL aufbereiten

Daten mit PySpark formen

Daten mit SQL analysieren

Temporäre Views verstehen

Daten laden und formen

Lerne, wie du explizite Schemas definierst, eine Datenbereinigungspipeline aufbaust und die Abfrageleistung mit Broadcast Joins optimierst.

Datenbereinigung und Qualitätsprüfungen

Warum explizite Schemata wichtig sind

Den Online-Retail-Datensatz bereinigen

Die richtige Qualitätsmetrik auswählen

Daten effizient aggregieren und verknüpfen

Retail-Daten joinen und aggregieren

Das Shuffle-Nadelöhr verstehen

Wann du einen Broadcast-Join verwendest

Datenbereinigung und Optimierung

Lerne, wie du laufende Summen und Rankings mit Window-Funktionen berechnest, Streaming-Pipelines aufbaust und produktive Workflows bereitstellst.

Window-Funktionen und Streaming-Abfragen

Kund:innen mit Window-Funktionen ranken

Retail-Streamingdaten in Delta Lake schreiben

Nach einem Neustart fortsetzen

Produktionspipelines mit Workflows

Eine Delta-Tabelle schreiben und lesen

Eine Job-Pipeline mit mehreren Tasks erstellen

Warum zu Lakeflow wechseln?

Zum Abschluss

Analytik und Produktions-Pipelines

online_retail

transactions

country_lookup

Bereit, reale Daten im großen Stil zu verarbeiten? In diesem Kurs lernst du, große Datensätze mit Spark SQL und PySpark in Databricks zu transformieren. Du formst und bereinigst Daten, führst Aggregationen mit optimierten Joins aus und nutzt Window-Funktionen für erweiterte Analysen. Außerdem richtest du dateibasierte Streams mit fehlertoleranten Checkpoints ein und speicherst Ergebnisse als Delta-Tabellen. Am Ende orchestrierst du mehrstufige Produktions-Pipelines mit Databricks Workflows und Lakeflow Declarative Pipelines.


Introduction to Databricks SQL

Introduction to PySpark

Erstellen Sie End-to-End-Datenpipelines: von Bereinigung und Aggregation bis zu Streaming und Orchestrierung.

Daten­transformation mit Spark SQL in Databricks

End-to-end-Daten-Pipelines bauen – von Bereinigung und Aggregation bis zu Streaming und Orchestrierung.


Associate Data Engineer in Databricks

Warum explizite Schemata wichtig sind

Interaktive praktische Übung