Inserindo colunas ausentes

O arquivo extraído de um dos anos está sem a coluna pub (editora), mas o time ainda quer escanear os dois arquivos como um único conjunto de dados. Escolha o argumento correto para que o Polars insira null onde faltar uma coluna, em vez de falhar.

polars está carregado como pl, e o diretório está em DRIFT_DIR. O cabeçalho de cada arquivo é impresso para você, assim você pode ver a diferença de esquema.

Este exercicio faz parte do curso

Dimensionamento e Otimização de Pipelines de Dados com Polars

Ver curso

Instruções do exercicio

Use um padrão glob para escanear todos os arquivos seattle_*.csv em DRIFT_DIR.
Adicione o argumento correto para que o Polars insira nulos nas colunas que estiverem ausentes em alguns arquivos.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Scan both yearly files as one combined dataset
combined = pl.scan_csv(
    str(DRIFT_DIR / "____"),
    try_parse_dates=True,
    # Insert missing columns instead of failing on schema differences
    ____="____",
)

result = combined.select("date", "format", "title", "pub").collect()

print("First rows (from 2023 file):")
print(result.head(3))
print("\nLast rows (from 2024 file):")
print(result.tail(3))

Editar e Executar Código