Resumindo dados Parquet

O primeiro relatório baseado em Parquet é o resumo de checkout digital que a equipe criou no Capítulo 1, mas agora começando a partir de uma consulta scan_parquet. Construa o mesmo pipeline lazy para que a equipe possa reutilizar esse padrão em todo o arquivo de histórico.

O LazyFrame requests já foi criado para você a partir do arquivo Parquet.

Este exercicio faz parte do curso

Dimensionamento e Otimização de Pipelines de Dados com Polars

Ver curso

Instruções do exercicio

Filtre requests para as linhas em que use seja "Digital".
Agrupe as linhas filtradas por format.
Dispare a execução somente no final do pipeline.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

result = (
    requests
    # Filter to digital
    .filter(pl.col("use") == "____")
    # Group by format
    .group_by("____")
    .agg(pl.col("checkouts").sum().alias("total"))
    .sort("total", descending=True)
    # Trigger execution at the end
    .____()
)
print(result)

Editar e Executar Código