Scansione di un dataset con partizionamento Hive

Il team archivia anche i Parquet dei check-out ripuliti in un layout con partizionamento Hive, con una directory per anno (checkoutyear=2023/, checkoutyear=2024/). Scansiona il dataset partizionato e filtra sulla colonna di partizione in modo che Polars legga solo gli anni di cui hai davvero bisogno.

polars è caricato come pl e la directory radice è in HIVE_DIR. Le directory di partizione sono stampate per te, così puoi vedere il layout.

Questo esercizio fa parte del corso

Scalare e ottimizzare le pipeline di dati con Polars

Visualizza corso

Istruzioni dell'esercizio

Scansiona HIVE_DIR usando l'argomento corretto per abilitare il partizionamento Hive.
Filtra il risultato ai check-out dal 2024 in poi.

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

requests = pl.scan_parquet(
    HIVE_DIR,
    # Enable hive partitioning
    ____=True,
)

result = (
    requests
    # Filter to the 2024 partition
    .filter(pl.col("checkoutyear") >= ____)
    .group_by("format")
    .agg(pl.col("checkouts").sum().alias("total"))
    .sort("total", descending=True)
    .collect()
)
print(result)

Modifica ed esegui il codice