Riepilogare i dati Parquet

Il primo report basato su Parquet è il riepilogo dei checkout digitali che il team ha creato nel Capitolo 1, ma ora partendo da una query scan_parquet. Costruisci la stessa pipeline lazy così che il team possa riutilizzare questo schema in tutto il loro archivio.

Il LazyFrame requests è già pronto per te, costruito dal file Parquet.

Questo esercizio fa parte del corso

Scalare e ottimizzare le pipeline di dati con Polars

Visualizza corso

Istruzioni dell'esercizio

Filtra requests alle righe in cui use è "Digital".
Raggruppa le righe filtrate per format.
Avvia l'esecuzione solo alla fine della pipeline.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

result = (
    requests
    # Filter to digital
    .filter(pl.col("use") == "____")
    # Group by format
    .group_by("____")
    .agg(pl.col("checkouts").sum().alias("total"))
    .sort("total", descending=True)
    # Trigger execution at the end
    .____()
)
print(result)

Modifica ed esegui il codice