Escritura en un archivo
En el vídeo, has visto que a menudo los archivos se cargan en una base de datos MPP como Redshift para que estén disponibles para su análisis.
El flujo de trabajo típico consiste en escribir los datos en archivos de datos en columnas. Estos archivos de datos se cargan en un sistema de almacenamiento y, desde allí, se pueden copiar en el almacén de datos. En el caso de Amazon Redshift, el sistema de almacenamiento sería S3, por ejemplo.
El primer paso es escribir un archivo en el formato adecuado. Para estos ejercicios elegirás el formato de archivo Apache Parquet.
Hay un DataFrame de PySpark llamado film_sdf
y un DataFrame de pandas llamado film_pdf
en tu espacio de trabajo.
Este ejercicio forma parte del curso
Introducción a la ingeniería de datos
Instrucciones de ejercicio
- Escribe el DataFrame de
pandas
film_pdf
en un archivo parquet llamado"films_pdf.parquet"
. - Escribe el DataFrame de PySpark
film_sdf
en un archivo parquet llamado"films_sdf.parquet"
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
# Write the pandas DataFrame to parquet
film_pdf.____("____")
# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")