Temizlenmiş bir çıkarımı Parquet'e yazma (sink)

Seattle kütüphane verilerine geri dönelim. Ekip, aşağı akış araçları için Parquet'e yazmak istedikleri, temizlenmiş bir ödünç alma çıkarımına sahip; ancak bunun tamamını önce bellekte somutlaştırmak istemiyorlar. Tembel sorguyu doğrudan diske yaz.

clean_checkouts önceden yüklendi; dışa aktarma yolu CLEAN_EXPORT_PATH ile birlikte geliyor.

Bu egzersiz, kursun bir parçasıdır

Polars ile Veri Hatlarını Ölçeklendirme ve Optimize Etme

Kursa Göz Atın

Egzersiz talimatları

clean_checkouts verisini tembel sorgudan doğrudan CLEAN_EXPORT_PATH konumuna yaz.
Satır grup boyutunu 5.000 olarak ayarla.
Streaming motorunu kullan.

Uygulamalı etkileşimli egzersiz

Bu egzersizi bu örnek kodu tamamlayarak deneyin.

# Write clean_checkouts straight to disk
clean_checkouts.____(
    CLEAN_EXPORT_PATH,
    # 5,000 rows per row group
    row_group_size=____,
    # Streaming engine
    engine="____",
)

# Confirm what landed in the Parquet file
result = pl.scan_parquet(CLEAN_EXPORT_PATH).select(
    pl.len().alias("rows"),
    pl.col("checkouts").sum().alias("total_checkouts"),
).collect()
print(result)

Kodu Düzenle ve Çalıştır