ComenzarEmpieza gratis

Escritura en un archivo

En el vídeo, has visto que a menudo los archivos se cargan en una base de datos MPP como Redshift para que estén disponibles para su análisis.

El flujo de trabajo típico consiste en escribir los datos en archivos de datos en columnas. Estos archivos de datos se cargan en un sistema de almacenamiento y, desde allí, se pueden copiar en el almacén de datos. En el caso de Amazon Redshift, el sistema de almacenamiento sería S3, por ejemplo.

El primer paso es escribir un archivo en el formato adecuado. Para estos ejercicios elegirás el formato de archivo Apache Parquet.

Hay un DataFrame de PySpark llamado film_sdf y un DataFrame de pandas llamado film_pdf en tu espacio de trabajo.

Este ejercicio forma parte del curso

Introducción a la ingeniería de datos

Ver curso

Instrucciones de ejercicio

  • Escribe el DataFrame de pandas film_pdf en un archivo parquet llamado "films_pdf.parquet".
  • Escribe el DataFrame de PySpark film_sdf en un archivo parquet llamado "films_sdf.parquet".

Ejercicio interactivo práctico

Pruebe este ejercicio completando este código de muestra.

# Write the pandas DataFrame to parquet
film_pdf.____("____")

# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")
Editar y ejecutar código