Escritura en un archivo

En el vídeo, has visto que a menudo los archivos se cargan en una base de datos MPP como Redshift para que estén disponibles para su análisis.

El flujo de trabajo típico consiste en escribir los datos en archivos de datos en columnas. Estos archivos de datos se cargan en un sistema de almacenamiento y, desde allí, se pueden copiar en el almacén de datos. En el caso de Amazon Redshift, el sistema de almacenamiento sería S3, por ejemplo.

El primer paso es escribir un archivo en el formato adecuado. Para estos ejercicios elegirás el formato de archivo Apache Parquet.

Hay un DataFrame de PySpark llamado film_sdf y un DataFrame de pandas llamado film_pdf en tu espacio de trabajo.

Este ejercicio forma parte del curso

Introducción a la ingeniería de datos

Instrucciones del ejercicio

Escribe el DataFrame de pandas film_pdf en un archivo parquet llamado "films_pdf.parquet".
Escribe el DataFrame de PySpark film_sdf en un archivo parquet llamado "films_sdf.parquet".

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Write the pandas DataFrame to parquet
film_pdf.____("____")

# Write the PySpark DataFrame to parquet
film_sdf.____.____("____")

Editar y ejecutar código

Este ejercicio forma parte del curso

Introducción a la ingeniería de datos

IntermedioNivel de habilidad

4.8+

Comienza el curso gratis

En este primer capítulo, te adentrarás en el mundo de la ingeniería de datos. Explora las diferencias entre un ingeniero de datos y un científico de datos, obtén una visión general de las diversas herramientas que utilizan los ingenieros de datos y amplía tu comprensión de cómo la tecnología de la nube desempeña un papel en la ingeniería de datos.

Exercise 1: ¿Qué es la ingeniería de datos?Exercise 2: Tareas de un ingeniero de datos Exercise 3: ¿Ingeniero de datos o científico de datos?Exercise 4: Problemas de la ingeniería de datos Exercise 5: Herramientas del ingeniero de datos Exercise 6: Tipos de bases de datos Exercise 7: Tareas de procesamiento Exercise 8: Herramientas de programación Exercise 9: Proveedores de nube Exercise 10: ¿Por qué la computación en la nube?Exercise 11: Grandes nombres de la computación en nube Exercise 12: Servicios en la nube

Ahora que ya conoces las principales diferencias entre un ingeniero de datos y un científico de datos, ¡prepárate para descubrir la caja de herramientas que usa un ingeniero de datos! Conoce en detalle los distintos tipos de bases de datos que utilizan los ingenieros de datos, descubre cómo la computación paralela es una piedra angular del conjunto de herramientas del ingeniero de datos y aprende a programar trabajos de procesamiento de datos utilizando marcos de programación.

Exercise 1: Bases de datos Exercise 2: SQL vs NoSQL Exercise 3: El esquema de la base de datos Exercise 4: Uniones en relaciones Exercise 5: Diagrama de esquema en estrella Exercise 6: Qué es la computación paralela Exercise 7: ¿Por qué la computación paralela?Exercise 8: De la tarea a las subtareas Exercise 9: Uso de un DataFrame Exercise 10: Frameworks de computación paralela Exercise 11: Spark, Hadoop y Hive Exercise 12: Groupby de PySpark Exercise 13: Ejecución de archivos PySpark Exercise 14: Frameworks de programación de flujos de trabajo Exercise 15: Airflow, Luigi y cron Exercise 16: DAGs de Airflow

Después de explorar la caja de herramientas que usan los ingenieros de datos, ha llegado el momento de pasar al pan de cada día del flujo de trabajo de un ingeniero de datos. Con ETL, aprenderás a extraer datos brutos de diversas fuentes, a transformar estos datos brutos en información procesable y a cargarla en bases de datos relevantes, listas para ser usadas.

Exercise 1: Extraer Exercise 2: Fuentes de datos Exercise 3: Obtener desde una API Exercise 4: Leer de una base de datos Exercise 5: Transformar Exercise 6: División del alquiler Exercise 7: Preparación para transformaciones Exercise 8: Uniones con valoraciones Exercise 9: Carga Exercise 10: OLAP o OLTP Exercise 11: Escritura en un archivo

Ejercicio actual

Exercise 12: Cargar en Postgres Exercise 13: Unirlo todo Exercise 14: Definición de un DAG Exercise 15: Configuración de Airflow Exercise 16: Interpretación del DAG

Culmina todo lo que has aprendido en los tres capítulos anteriores completando un caso de uso de ingeniería de datos del mundo real de DataCamp. Realizarás y programarás un proceso ETL que transforme los datos brutos de calificación de los cursos en recomendaciones de cursos procesables para los estudiantes de DataCamp.

Exercise 1: Valoraciones de cursos Exercise 2: Exploración del esquema Exercise 3: Consulta de la tabla Exercise 4: Valoración media por curso Exercise 5: De las valoraciones a las recomendaciones Exercise 6: Filtrar los datos corruptos Exercise 7: Uso de la transformación de recomendación Exercise 8: Programación de trabajos diarios Exercise 9: La tabla de destino Exercise 10: Definición del DAG Exercise 11: Activación del DAG Exercise 12: Consulta de las recomendaciones Exercise 13: ¡Enhorabuena!