Gravando um snapshot em Parquet

Um dashboard downstream precisa de um snapshot em Parquet mais enxuto da atividade de ebooks digitais. Construa o resultado de forma lazy e depois grave-o com configurações explícitas de compactação e de grupos de linhas para ajustar o arquivo para leituras rápidas.

O LazyFrame requests está disponível, e o caminho de exportação está em PARQUET_EXPORT_PATH.

Este exercicio faz parte do curso

Dimensionamento e Otimização de Pipelines de Dados com Polars

Ver curso

Instruções do exercicio

Mantenha apenas as primeiras 500 linhas digitais para o snapshot.
Defina compression_level como 5 ao gravar o arquivo Parquet.
Defina row_group_size para 250 linhas.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

result = (
    requests
    .filter(pl.col("use") == "Digital")
    .select("date", "format", "checkouts", "title")
    # Keep only the first 500 rows
    .____(500)
    .collect()
)

result.write_parquet(
    PARQUET_EXPORT_PATH,
    # Set compression level to 5
    compression_level=____,
    # Set 250 rows per row group
    row_group_size=____,
)

print(pl.read_parquet_schema(PARQUET_EXPORT_PATH))

Editar e Executar Código