Een opgeschoonde extract naar Parquet wegschrijven

Terug naar de Seattle-bibliotheekdata. Het team heeft een opgeschoonde checkout-extract die ze naar Parquet willen schrijven voor downstream-tools, maar ze willen niet eerst alles in het geheugen materialiseren. Schrijf de luie query direct naar schijf.

clean_checkouts is al geladen, net als het exportpad CLEAN_EXPORT_PATH.

Deze oefening maakt deel uit van de cursus

Data-pipelines schalen en optimaliseren met Polars

Bekijk cursus

Oefeninstructies

Schrijf clean_checkouts naar CLEAN_EXPORT_PATH rechtstreeks vanuit de luie query.
Zet de row group size op 5.000.
Gebruik de streaming-engine.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Write clean_checkouts straight to disk
clean_checkouts.____(
    CLEAN_EXPORT_PATH,
    # 5,000 rows per row group
    row_group_size=____,
    # Streaming engine
    engine="____",
)

# Confirm what landed in the Parquet file
result = pl.scan_parquet(CLEAN_EXPORT_PATH).select(
    pl.len().alias("rows"),
    pl.col("checkouts").sum().alias("total_checkouts"),
).collect()
print(result)

Code bewerken en uitvoeren