Memindai himpunan data berpartisi hive

Tim juga menyimpan checkout Parquet yang sudah dibersihkan dalam tata letak berpartisi hive, dengan satu direktori per tahun (checkoutyear=2023/, checkoutyear=2024/). Pindai himpunan data yang berpartisi dan lakukan pemfilteran pada kolom partisi agar Polars hanya membaca tahun yang benar-benar Anda perlukan.

polars telah dimuat sebagai pl, dan direktori root ada di HIVE_DIR. Direktori partisi telah dicetak untuk Anda, sehingga Anda dapat melihat tata letaknya.

Latihan ini merupakan bagian dari kursus

Menskalakan dan Mengoptimalkan Pipeline Data dengan Polars

Lihat Kursus

Instruksi latihan

Pindai HIVE_DIR menggunakan argumen yang tepat untuk mengaktifkan partisi hive.
Filter hasilnya ke checkout mulai tahun 2024 dan seterusnya.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

requests = pl.scan_parquet(
    HIVE_DIR,
    # Enable hive partitioning
    ____=True,
)

result = (
    requests
    # Filter to the 2024 partition
    .filter(pl.col("checkoutyear") >= ____)
    .group_by("format")
    .agg(pl.col("checkouts").sum().alias("total"))
    .sort("total", descending=True)
    .collect()
)
print(result)

Edit dan Jalankan Kode