Escribir una instantánea en Parquet

Un panel aguas abajo necesita una instantánea Parquet más ligera de la actividad de ebooks digitales. Construye el resultado de forma perezosa y luego escríbelo especificando la compresión y el tamaño de los grupos de filas para optimizar el archivo para lecturas rápidas.

El LazyFrame requests está disponible y la ruta de exportación está en PARQUET_EXPORT_PATH.

Este ejercicio forma parte del curso

Escala y optimiza canalizaciones de datos con Polars

Ver curso

Instrucciones del ejercicio

Conserva solo las primeras 500 filas digitales para la instantánea.
Establece compression_level en 5 al escribir el archivo Parquet.
Establece row_group_size en 250 filas.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

result = (
    requests
    .filter(pl.col("use") == "Digital")
    .select("date", "format", "checkouts", "title")
    # Keep only the first 500 rows
    .____(500)
    .collect()
)

result.write_parquet(
    PARQUET_EXPORT_PATH,
    # Set compression level to 5
    compression_level=____,
    # Set 250 rows per row group
    row_group_size=____,
)

print(pl.read_parquet_schema(PARQUET_EXPORT_PATH))

Editar y ejecutar código