1. Learn
  2. /
  3. Courses
  4. /
  5. Data Engineering 入门

Connected

Exercise

Airflow DAG

在 Airflow 中,数据流水线用有向无环图(Directed Acyclic Graph,简称 DAG)来表示。图中的节点表示要执行的任务,节点之间的有向连接表示任务之间的依赖关系。

将数据流水线表示为 DAG 很合理,因为有些任务必须先完成,后续任务才能开始。您可以将其类比为汽车工厂的装配线:任务按步骤累积,每个任务都可能依赖前序任务已完成。一个虚构的 DAG 可能如下所示:

Example DAG

首先组装车架,然后是车身和轮胎,最后再喷漆。我们来用代码复现上面的示例。

Instructions 1/2

50 XP
    1
    2
  • 首先,DAG 需要在每个小时的第 0 分运行。请使用 crontab 表达式填写 schedule_interval 关键字参数。例如,每个小时在第 N 分运行可写为 N * * * *。请注意,这里需要在第 0 分运行。