ComenzarEmpieza gratis

Definición del DAG

En los ejercicios anteriores, has completado las fases de extracción, transformación y carga por separado. Ahora todo esto está reunido en una ordenada función etl() que puedes descubrir en la consola.

La función etl() extrae los datos brutos de cursos y valoraciones de las bases de datos pertinentes, limpia los datos corruptos y rellena los valores que faltan, calcula la valoración media por curso y crea recomendaciones basadas en las reglas de decisión para producir recomendaciones, y finalmente carga las recomendaciones en una base de datos.

Como recordarás del vídeo, etl() acepta un único argumento: db_engines. Puedes pasar esto a la tarea utilizando op_kwargs en la página PythonOperator. Puedes pasarle un diccionario que se rellenará como kwargs en la llamada.

Este ejercicio forma parte del curso

Introducción a la ingeniería de datos

Ver curso

Instrucciones del ejercicio

  • Completa la definición de DAG, para que se ejecute diariamente. Asegúrate de utilizar la notación cron.
  • Completa el PythonOperator() pasando los argumentos correctos. Además de etl, db_engines también está disponible en tu espacio de trabajo.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Define the DAG so it runs on a daily basis
dag = DAG(dag_id="recommendations",
          schedule_interval="____")

# Make sure `etl()` is called in the operator. Pass the correct kwargs.
task_recommendations = PythonOperator(
    task_id="recommendations_task",
    python_callable=____,
    op_kwargs={"____": ____},
)
Editar y ejecutar código