Scrivere un extract pulito in Parquet

Torniamo ai dati della biblioteca di Seattle. Il team ha un extract delle transazioni di prestito ripulito che vuole scrivere in Parquet per gli strumenti a valle, ma non vuole materializzare tutto in memoria prima. Scrivi la query lazy direttamente su disco.

clean_checkouts è già caricato, insieme al percorso di export CLEAN_EXPORT_PATH.

Questo esercizio fa parte del corso

Scalare e ottimizzare le pipeline di dati con Polars

Visualizza corso

Istruzioni dell'esercizio

Scrivi clean_checkouts in CLEAN_EXPORT_PATH direttamente dalla query lazy.
Imposta la dimensione dei row group a 5.000.
Usa il motore di streaming.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Write clean_checkouts straight to disk
clean_checkouts.____(
    CLEAN_EXPORT_PATH,
    # 5,000 rows per row group
    row_group_size=____,
    # Streaming engine
    engine="____",
)

# Confirm what landed in the Parquet file
result = pl.scan_parquet(CLEAN_EXPORT_PATH).select(
    pl.len().alias("rows"),
    pl.col("checkouts").sum().alias("total_checkouts"),
).collect()
print(result)

Modifica ed esegui il codice