Gravando um extrato limpo em Parquet

Voltando aos dados da biblioteca de Seattle. A equipe tem um extrato de checkouts já limpo que deseja gravar em Parquet para ferramentas downstream, mas não quer materializar tudo na memória antes. Grave a consulta lazy diretamente no disco.

clean_checkouts já está carregado, assim como o caminho de exportação CLEAN_EXPORT_PATH.

Este exercicio faz parte do curso

Dimensionamento e Otimização de Pipelines de Dados com Polars

Ver curso

Instruções do exercicio

Grave clean_checkouts em CLEAN_EXPORT_PATH diretamente a partir da consulta lazy.
Defina o tamanho do row group como 5.000.
Use o mecanismo de streaming.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Write clean_checkouts straight to disk
clean_checkouts.____(
    CLEAN_EXPORT_PATH,
    # 5,000 rows per row group
    row_group_size=____,
    # Streaming engine
    engine="____",
)

# Confirm what landed in the Parquet file
result = pl.scan_parquet(CLEAN_EXPORT_PATH).select(
    pl.len().alias("rows"),
    pl.col("checkouts").sum().alias("total_checkouts"),
).collect()
print(result)

Editar e Executar Código