In questo capitolo imparerai a lavorare con i notebook di Databricks, caricare dati CSV in Spark DataFrame e modellare i dati usando PySpark e SQL.

Lavorare con i notebook di Databricks

Capire i notebook di Databricks

Caricare il tuo primo dataset

Esplorare i log del driver

Modellare i dati con PySpark e SQL

Modellare i dati con PySpark

Analizzare i dati con SQL

Capire le viste temporanee

Caricamento e modellazione dei dati

Scopri come definire schemi espliciti, creare una pipeline di pulizia dei dati e ottimizzare le prestazioni delle query con i broadcast join.

Pulizia dei dati e controlli di qualità

Perché gli schemi espliciti sono importanti

Pulizia del dataset di online retail

Scegliere la metrica di qualità giusta

Aggregare e unire i dati in modo efficiente

Join e aggregazioni su dati retail

Capire il collo di bottiglia dello shuffle

Quando usare una broadcast join

Pulizia dei dati e ottimizzazione

Scopri come calcolare totali progressivi e classifiche con le window function, creare pipeline di streaming e distribuire workflow di produzione.

Funzioni finestra e query in streaming

Classificare i clienti con le funzioni finestra

Streaming di dati retail in Delta Lake

Riprendere dopo un riavvio

Pipeline di produzione con i workflow

Scrivere e leggere una tabella Delta

Creare una pipeline di job multi-task

Perché passare a Lakeflow?

Ricapitolando

Analisi e pipeline di produzione

transactions

country_lookup

online_retail

Pronto a gestire dati reali su larga scala? In questo corso imparerai a trasformare grandi insiemi di dati usando Spark SQL e PySpark in Databricks. Impara a modellare e pulire i dati, eseguire aggregazioni con join ottimizzati e applicare window function per analisi avanzate. Imposterai anche lo streaming basato su file con checkpoint tolleranti ai guasti e persisterai i risultati come tabelle Delta. Al termine, orchestrerai pipeline di produzione multi-step con Databricks Workflows e Lakeflow Declarative Pipelines.


Introduction to Databricks SQL

Introduction to PySpark

Crea pipeline dati complete: dalla pulizia e aggregazione allo streaming e orchestrazione.

Trasformazione dei dati con Spark SQL in Databricks

Crea pipeline dati end-to-end: da pulizia e aggregazione a streaming e orchestrazione.


Associate Data Engineer in Databricks

Riprendere dopo un riavvio

Trasformazione dei dati con Spark SQL in Databricks

esercizio interattivo pratico