In dit hoofdstuk leer je werken met Databricks-notebooks, CSV-data laden in Spark DataFrames en data vormgeven met PySpark en SQL.

Werken met Databricks-notebooks

Databricks-notebooks begrijpen

Je eerste gegevensset laden

Driverlogs verkennen

Data vormgeven met PySpark en SQL

Data vormen met PySpark

Data analyseren met SQL

Tijdelijke views begrijpen

Data laden en vormgeven

Leer hoe je expliciete schema's definieert, een opschoningspijplijn bouwt en de queryprestaties optimaliseert met broadcast joins.

Gegevens opschonen en kwaliteitscontroles

Waarom expliciete schema's belangrijk zijn

De online retail-gegevensset opschonen

De juiste kwaliteitsmetriek kiezen

Data efficiënt aggregeren en joinen

Retaildata joinen en aggregeren

De shuffle-bottleneck begrijpen

Wanneer gebruik je een broadcast join

Data opschonen en optimaliseren

Leer hoe je lopende totalen en rangordes berekent met windowfuncties, streamingpijplijnen bouwt en productie-workflows uitrolt.

Windowfuncties en streamingquery's

Klanten rangschikken met windowfuncties

Retaildata streamen naar Delta Lake

Hervatten na een herstart

Productiepijplijnen met workflows

Een Delta-tabel schrijven en lezen

Een pijplijn met meerdere taken bouwen

Waarom overstappen op Lakeflow?

Afronding

Analytics en productie-pijplijnen

transactions

country_lookup

online_retail

Klaar om met data op schaal te werken? In deze cursus leer je grote gegevenssets transformeren met Spark SQL en PySpark in Databricks. Je leert data vormgeven en opschonen, aggregaties uitvoeren met geoptimaliseerde joins en windowfuncties toepassen voor geavanceerde analyses. Ook zet je bestandsgebaseerde streaming op met fouttolerante checkpoints en sla je resultaten op als Delta-tabellen. Aan het einde orkestreer je meerstaps productie-pijplijnen met Databricks Workflows en Lakeflow Declarative Pipelines.


Introduction to Databricks SQL

Introduction to PySpark

Bouw end-to-end datalijnen: van schoonmaken en aggregatie tot streaming en orkestratie.

Gegevens transformeren met Spark SQL in Databricks

Bouw end-to-end datapijplijnen - van opschoning en aggregatie tot streaming en orkestratie.


Associate Data Engineer in Databricks

Hervatten na een herstart

Gegevens transformeren met Spark SQL in Databricks

Interactieve oefening met praktijkervaring