1. 学ぶ
  2. /
  3. コース
  4. /
  5. データエンジニアリング入門

Connected

演習

Airflow の DAG

Airflow では、パイプラインは有向非巡回グラフ(Directed Acyclic Graph、略して DAG)として表現します。グラフのノードは実行されるタスクを表し、ノード間の有向エッジはタスク間の依存関係を表します。

データパイプラインを DAG で表すのはとても理にかなっています。というのも、あるタスクは別のタスクが終わってからでないと開始できないからです。これは自動車工場の組立ラインにたとえられます。タスクは順に積み上がり、各タスクは前のタスクの完了に依存することがあります。架空の DAG は次のようなイメージです。

Example DAG

最初にフレームを組み立て、次にボディとタイヤを取り付け、最後に塗装します。では、上の例をコードで再現してみましょう。

指示1 / 2

undefined XP
    1
    2
  • まず、この DAG は毎時0分に実行する必要があります。crontab 記法で schedule_interval のキーワード引数を入力してください。たとえば、毎時 N 分なら N * * * * です。今回は0分に実行する点に注意してください。