Explorar un conjunto de datos con particiones Hive

El equipo también guarda los Parquet de checkouts ya limpios en un esquema con particiones Hive, con un directorio por año (checkoutyear=2023/, checkoutyear=2024/). Explora el conjunto de datos particionado y filtra por la columna de partición para que Polars solo lea los años que realmente necesitas.

polars está cargado como pl, y el directorio raíz está en HIVE_DIR. Los directorios de partición se imprimen para que puedas ver la estructura.

Este ejercicio forma parte del curso

Escala y optimiza canalizaciones de datos con Polars

Ver curso

Instrucciones del ejercicio

Explora HIVE_DIR usando el argumento adecuado para habilitar las particiones Hive.
Filtra el resultado para quedarte con los checkouts desde 2024 en adelante.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

requests = pl.scan_parquet(
    HIVE_DIR,
    # Enable hive partitioning
    ____=True,
)

result = (
    requests
    # Filter to the 2024 partition
    .filter(pl.col("checkoutyear") >= ____)
    .group_by("format")
    .agg(pl.col("checkouts").sum().alias("total"))
    .sort("total", descending=True)
    .collect()
)
print(result)

Editar y ejecutar código