Insertar columnas que faltan

El archivo extraído de un año no tiene la columna pub (editorial), pero el equipo quiere escanear ambos archivos como un único conjunto de datos. Elige el argumento correcto para que Polars inserte null donde falte una columna en lugar de fallar.

polars está cargado como pl, y el directorio está en DRIFT_DIR. Se imprime la cabecera de cada archivo para que puedas ver la diferencia de esquema.

Este ejercicio forma parte del curso

Escala y optimiza canalizaciones de datos con Polars

Ver curso

Instrucciones del ejercicio

Usa un patrón glob para escanear todos los archivos seattle_*.csv en DRIFT_DIR.
Añade el argumento correcto para que Polars inserte nulos en las columnas que faltan en algunos archivos.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Scan both yearly files as one combined dataset
combined = pl.scan_csv(
    str(DRIFT_DIR / "____"),
    try_parse_dates=True,
    # Insert missing columns instead of failing on schema differences
    ____="____",
)

result = combined.select("date", "format", "title", "pub").collect()

print("First rows (from 2023 file):")
print(result.head(3))
print("\nLast rows (from 2024 file):")
print(result.tail(3))

Editar y ejecutar código