1. Nauka
  2. /
  3. Kursy
  4. /
  5. Wprowadzenie do inżynierii danych

Connected

ćwiczenie

DAG-i w Airflow

W Airflow potok danych jest reprezentowany jako skierowany graf acykliczny (DAG, ang. Directed Acyclic Graph). Węzły grafu odpowiadają zadaniom, które są wykonywane. Skierowane połączenia między węzłami reprezentują zależności między zadaniami.

Przedstawienie potoku danych jako DAG-a jest bardzo wygodne – niektóre zadania muszą się zakończyć, zanim inne będą mogły się rozpocząć. Można to porównać do linii montażowej w fabryce samochodów: zadania następują po sobie, a każde z nich może zależeć od zakończenia poprzednich. Przykładowy DAG może wyglądać tak:

Example DAG

Najpierw montowana jest rama, potem nadwozie i opony, a na końcu samochód jest lakierowany. Teraz odtwórz powyższy przykład w kodzie.

Instrukcje 1/2

undefined XP
    1
    2
  • DAG powinien uruchamiać się co godzinę, dokładnie o pełnej godzinie (minuta 0). Uzupełnij argument schedule_interval, używając notacji crontab. Na przykład co godzinę o minucie N zapiszemy jako N * * * *. Pamiętaj – uruchomienie ma nastąpić o minucie 0.