Scrivere uno snapshot Parquet

Una dashboard a valle ha bisogno di uno snapshot Parquet più snello dell'attività sugli ebook digitali. Costruisci il risultato in modalità lazy, poi scrivilo impostando esplicitamente compressione e dimensione dei gruppi di righe per ottimizzare il file per letture rapide.

Il LazyFrame requests è disponibile e il percorso di esportazione è in PARQUET_EXPORT_PATH.

Questo esercizio fa parte del corso

Scalare e ottimizzare le pipeline di dati con Polars

Visualizza corso

Istruzioni dell'esercizio

Tieni solo le prime 500 righe digitali per lo snapshot.
Imposta compression_level a 5 quando scrivi il file Parquet.
Imposta row_group_size a 250 righe.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

result = (
    requests
    .filter(pl.col("use") == "Digital")
    .select("date", "format", "checkouts", "title")
    # Keep only the first 500 rows
    .____(500)
    .collect()
)

result.write_parquet(
    PARQUET_EXPORT_PATH,
    # Set compression level to 5
    compression_level=____,
    # Set 250 rows per row group
    row_group_size=____,
)

print(pl.read_parquet_schema(PARQUET_EXPORT_PATH))

Modifica ed esegui il codice