Hive bölümlü bir veri kümesini tarama

Ekip, temizlenmiş Parquet kasa kayıtlarını yıl başına bir dizin olacak şekilde (ör. checkoutyear=2023/, checkoutyear=2024/) hive bölümlü bir düzende de saklıyor. Bölümlü veri kümesini tara ve yalnızca ihtiyacın olan yılları okumak için bölüm sütununa göre filtrele.

polars, pl olarak yüklendi ve kök dizin HIVE_DIR içinde. Düzeni görebilmen için bölüm dizinleri senin için yazdırıldı.

Bu egzersiz, kursun bir parçasıdır

Polars ile Veri Hatlarını Ölçeklendirme ve Optimize Etme

Kursa Göz Atın

Egzersiz talimatları

Hive bölümlemeyi etkinleştirmek için doğru argümanı kullanarak HIVE_DIR dizinini tara.
Sonucu 2024 ve sonrasındaki kasa kayıtlarıyla filtrele.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

requests = pl.scan_parquet(
    HIVE_DIR,
    # Enable hive partitioning
    ____=True,
)

result = (
    requests
    # Filter to the 2024 partition
    .filter(pl.col("checkoutyear") >= ____)
    .group_by("format")
    .agg(pl.col("checkouts").sum().alias("total"))
    .sort("total", descending=True)
    .collect()
)
print(result)

Kodu Düzenle ve Çalıştır