1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Introduction to Data Engineering

Connected

cvičení

Airflow DAGs

V Airflow je pipeline reprezentován jako Directed Acyclic Graph neboli DAG. Uzly grafu představují úlohy, které se spouštějí. Orientované spojení mezi uzly pak vyjadřuje závislosti mezi těmito úlohami.

Reprezentovat datový pipeline jako DAG dává velký smysl – některé úlohy musí být dokončeny dříve, než mohou začít jiné. Dá se to přirovnat k montážní lince v automobilové továrně. Úlohy na sebe navazují a každá z nich může záviset na dokončení těch předchozích. Ukázkový DAG může vypadat třeba takto:

Example DAG

Nejprve se sestaví rám, pak karoserie a pneumatiky a nakonec se auto nalakuje. Pojďme teď tento příklad reprodukovat v kódu.

Pokyny 1/2

undefined XP
    1
    2
  • DAG musí běžet každou hodinu v minutě 0. Doplň argument schedule_interval pomocí crontab notace. Například každou hodinu v minutě N zapíšeš jako N * * * *. Nezapomeň, že chceš spustit v minutě 0.