1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do inżynierii danych

Connected

ćwiczenie

Definiowanie DAG

W poprzednich ćwiczeniach wykonywałeś fazy extract, transform i load osobno. Teraz wszystko to zostało zebrane w jednej funkcji etl(), którą możesz zbadać w konsoli.

Funkcja etl() pobiera surowe dane o kursach i ocenach z odpowiednich baz danych, oczyszcza błędne dane i uzupełnia brakujące wartości, oblicza średnią ocenę dla każdego kursu, tworzy rekomendacje na podstawie reguł decyzyjnych, a następnie ładuje rekomendacje do bazy danych.

Jak pamiętasz z wideo, etl() przyjmuje jeden argument: db_engines. Możesz go przekazać do zadania za pomocą op_kwargs w PythonOperator. Przekazujesz słownik, który zostanie użyty jako kwargs w wywoływanej funkcji.

Instrukcje

100 XP
  • Uzupełnij definicję DAG tak, aby uruchamiał się codziennie. Pamiętaj, żeby użyć zapisu cron.
  • Uzupełnij PythonOperator(), przekazując odpowiednie argumenty. Oprócz etl w twoim środowisku dostępna jest również zmienna db_engines.