Definición del DAG
En los ejercicios anteriores, has completado las fases de extracción, transformación y carga por separado. Ahora todo esto está reunido en una ordenada función etl()
que puedes descubrir en la consola.
La función etl()
extrae los datos brutos de cursos y valoraciones de las bases de datos pertinentes, limpia los datos corruptos y rellena los valores que faltan, calcula la valoración media por curso y crea recomendaciones basadas en las reglas de decisión para producir recomendaciones, y finalmente carga las recomendaciones en una base de datos.
Como recordarás del vídeo, etl()
acepta un único argumento: db_engines
. Puedes pasar esto a la tarea utilizando op_kwargs
en la página PythonOperator
. Puedes pasarle un diccionario que se rellenará como kwargs en la llamada.
Este ejercicio forma parte del curso
Introducción a la ingeniería de datos
Instrucciones del ejercicio
- Completa la definición de DAG, para que se ejecute diariamente. Asegúrate de utilizar la notación cron.
- Completa el
PythonOperator()
pasando los argumentos correctos. Además deetl
,db_engines
también está disponible en tu espacio de trabajo.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Define the DAG so it runs on a daily basis
dag = DAG(dag_id="recommendations",
schedule_interval="____")
# Make sure `etl()` is called in the operator. Pass the correct kwargs.
task_recommendations = PythonOperator(
task_id="recommendations_task",
python_callable=____,
op_kwargs={"____": ____},
)