Menyisipkan kolom yang hilang

Satu file hasil ekstraksi untuk satu tahun tidak memiliki kolom pub (penerbit), tetapi tim tetap ingin memindai kedua file tersebut sebagai satu himpunan data. Pilih argumen yang tepat agar Polars menyisipkan null saat sebuah kolom hilang alih-alih gagal.

polars telah dimuat sebagai pl, dan direktori ada di DRIFT_DIR. Header setiap file telah dicetak untuk Anda, sehingga Anda dapat melihat perbedaan skemanya.

Latihan ini merupakan bagian dari kursus

Menskalakan dan Mengoptimalkan Pipeline Data dengan Polars

Lihat Kursus

Instruksi latihan

Gunakan pola glob untuk memindai setiap file seattle_*.csv di DRIFT_DIR.
Tambahkan argumen yang tepat agar Polars menyisipkan nilai null untuk kolom yang hilang pada sebagian file.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

# Scan both yearly files as one combined dataset
combined = pl.scan_csv(
    str(DRIFT_DIR / "____"),
    try_parse_dates=True,
    # Insert missing columns instead of failing on schema differences
    ____="____",
)

result = combined.select("date", "format", "title", "pub").collect()

print("First rows (from 2023 file):")
print(result.head(3))
print("\nLast rows (from 2024 file):")
print(result.tail(3))

Edit dan Jalankan Kode