1. 学ぶ
  2. /
  3. コース
  4. /
  5. データエンジニアリング入門

Connected

演習

DAG を定義する

前の演習では、ETL プロセスの3つのステップを実行しました。

  • Extract: PostgreSQL の film テーブルを pandas に取り出しました。
  • Transform: film DataFrame の rental_rate 列を分割しました。
  • Load: film DataFrame を PostgreSQL のデータウェアハウスにロードしました。

extract_film_to_pandas()、transform_rental_rate()、load_dataframe_to_film() 関数はワークスペース内で定義済みです。この演習では、既存の DAG に ETL タスクを追加します。拡張する DAG と、待機すべきタスクはそれぞれ dag と wait_for_table としてワークスペース内に定義されています。

指示

100 XP
  • 演習の説明で定義されている関数を使って、etl() 関数を完成させてください。
  • etl_task が etl の callable を使用するようにしてください。
  • 正しい上流の依存関係を設定します。etl_task は wait_for_table の完了を待つ必要があります。
  • サンプルコードにはサンプル実行が含まれています。つまり、コードを実行すると ETL パイプラインが実行されます。