Ontbrekende kolommen invoegen

In het geëxtraheerde bestand van één jaar ontbreekt de kolom pub (uitgever), maar het team wil beide bestanden toch als één gegevensset scannen. Kies het juiste argument zodat Polars null invult waar een kolom ontbreekt in plaats van te falen.

polars is geladen als pl, en de map staat in DRIFT_DIR. De header van elk bestand wordt voor je afgedrukt, zodat je het verschil in schema kunt zien.

Deze oefening maakt deel uit van de cursus

Data-pipelines schalen en optimaliseren met Polars

Bekijk cursus

Oefeninstructies

Gebruik een globpatroon om elk seattle_*.csv-bestand in DRIFT_DIR te scannen.
Voeg het juiste argument toe zodat Polars null-waarden invult voor kolommen die in sommige bestanden ontbreken.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Scan both yearly files as one combined dataset
combined = pl.scan_csv(
    str(DRIFT_DIR / "____"),
    try_parse_dates=True,
    # Insert missing columns instead of failing on schema differences
    ____="____",
)

result = combined.select("date", "format", "title", "pub").collect()

print("First rows (from 2023 file):")
print(result.head(3))
print("\nLast rows (from 2024 file):")
print(result.tail(3))

Code bewerken en uitvoeren