Menulis snapshot Parquet

Sebuah dasbor hilir memerlukan snapshot Parquet yang lebih ramping dari aktivitas ebook digital. Bangun hasilnya secara lazy, lalu tulis kembali dengan pengaturan kompresi dan grup baris yang eksplisit untuk menyetel file agar pembacaannya cepat.

LazyFrame requests tersedia, dan path ekspor ada di PARQUET_EXPORT_PATH.

Latihan ini merupakan bagian dari kursus

Menskalakan dan Mengoptimalkan Pipeline Data dengan Polars

Lihat Kursus

Instruksi latihan

Pertahankan hanya 500 baris digital pertama untuk snapshot.
Atur compression_level ke 5 saat menulis file Parquet.
Atur row_group_size ke 250 baris.

Latihan interaktif langsung praktik

Cobalah latihan ini dengan melengkapi kode contoh ini.

result = (
    requests
    .filter(pl.col("use") == "Digital")
    .select("date", "format", "checkouts", "title")
    # Keep only the first 500 rows
    .____(500)
    .collect()
)

result.write_parquet(
    PARQUET_EXPORT_PATH,
    # Set compression level to 5
    compression_level=____,
    # Set 250 rows per row group
    row_group_size=____,
)

print(pl.read_parquet_schema(PARQUET_EXPORT_PATH))

Edit dan Jalankan Kode