Een hive-gepartitioneerde gegevensset scannen

Het team slaat opgeschoonde Parquet-checkouts ook op in een hive-gepartitioneerde indeling, met één map per jaar (checkoutyear=2023/, checkoutyear=2024/). Scan de gepartitioneerde gegevensset en filter op de partitiekolom zodat Polars alleen de jaren leest die je echt nodig hebt.

polars is geladen als pl, en de hoofdmap staat in HIVE_DIR. De partitiemappen zijn voor je geprint, zodat je de structuur kunt zien.

Deze oefening maakt deel uit van de cursus

Data-pipelines schalen en optimaliseren met Polars

Bekijk cursus

Oefeninstructies

Scan HIVE_DIR met het juiste argument om hive-partitionering in te schakelen.
Filter het resultaat naar checkouts vanaf 2024.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

requests = pl.scan_parquet(
    HIVE_DIR,
    # Enable hive partitioning
    ____=True,
)

result = (
    requests
    # Filter to the 2024 partition
    .filter(pl.col("checkoutyear") >= ____)
    .group_by("format")
    .agg(pl.col("checkouts").sum().alias("total"))
    .sort("total", descending=True)
    .collect()
)
print(result)

Code bewerken en uitvoeren