Fazendo scan de um conjunto de dados particionado em Hive

A equipe também armazena os checkouts em Parquet, já limpos, em um layout particionado em Hive, com um diretório por ano (checkoutyear=2023/, checkoutyear=2024/). Faça o scan do conjunto de dados particionado e filtre pela coluna de partição para que o Polars leia apenas os anos de que você realmente precisa.

polars está carregado como pl, e o diretório raiz está em HIVE_DIR. Os diretórios de partição são exibidos para você, assim você pode ver o layout.

Este exercicio faz parte do curso

Dimensionamento e Otimização de Pipelines de Dados com Polars

Ver curso

Instruções do exercicio

Faça o scan de HIVE_DIR usando o argumento correto para habilitar a partição em Hive.
Filtre o resultado para checkouts de 2024 em diante.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

requests = pl.scan_parquet(
    HIVE_DIR,
    # Enable hive partitioning
    ____=True,
)

result = (
    requests
    # Filter to the 2024 partition
    .filter(pl.col("checkoutyear") >= ____)
    .group_by("format")
    .agg(pl.col("checkouts").sum().alias("total"))
    .sort("total", descending=True)
    .collect()
)
print(result)

Editar e Executar Código