Volcar un extracto limpio a Parquet

Volvemos a los datos de la biblioteca de Seattle. El equipo tiene un extracto de préstamos ya depurado que quiere escribir en Parquet para herramientas posteriores, pero no quiere materializarlo entero en memoria antes. Escribe la consulta perezosa directamente en disco.

clean_checkouts está precargado, junto con la ruta de exportación CLEAN_EXPORT_PATH.

Este ejercicio forma parte del curso

Escala y optimiza canalizaciones de datos con Polars

Ver curso

Instrucciones del ejercicio

Escribe clean_checkouts en CLEAN_EXPORT_PATH directamente desde la consulta perezosa.
Establece el tamaño del grupo de filas en 5.000.
Usa el motor de streaming.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Write clean_checkouts straight to disk
clean_checkouts.____(
    CLEAN_EXPORT_PATH,
    # 5,000 rows per row group
    row_group_size=____,
    # Streaming engine
    engine="____",
)

# Confirm what landed in the Parquet file
result = pl.scan_parquet(CLEAN_EXPORT_PATH).select(
    pl.len().alias("rows"),
    pl.col("checkouts").sum().alias("total_checkouts"),
).collect()
print(result)

Editar y ejecutar código