Een Parquet-snapshot wegschrijven

Een downstream-dashboard heeft een slankere Parquet-snapshot van digitale ebook-activiteit nodig. Bouw het resultaat lui op en schrijf het daarna weg met expliciete compressie- en row group-instellingen om het bestand af te stemmen op snelle reads.

De LazyFrame requests is beschikbaar en het exportpad staat in PARQUET_EXPORT_PATH.

Deze oefening maakt deel uit van de cursus

Data-pipelines schalen en optimaliseren met Polars

Bekijk cursus

Oefeninstructies

Behoud alleen de eerste 500 digitale rijen voor de snapshot.
Zet compression_level op 5 bij het schrijven van het Parquet-bestand.
Zet row_group_size op 250 rijen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

result = (
    requests
    .filter(pl.col("use") == "Digital")
    .select("date", "format", "checkouts", "title")
    # Keep only the first 500 rows
    .____(500)
    .collect()
)

result.write_parquet(
    PARQUET_EXPORT_PATH,
    # Set compression level to 5
    compression_level=____,
    # Set 250 rows per row group
    row_group_size=____,
)

print(pl.read_parquet_schema(PARQUET_EXPORT_PATH))

Code bewerken en uitvoeren