1. Învăţa
  2. /
  3. Courses
  4. /
  5. Python で学ぶ ETL と ELT

Connected

exercise

データパイプラインをエンドツーエンドでテストする

この演習では、これまでと同じ、税データを抽出・変換・ロードするデータパイプラインを扱います。パイプラインをエンドツーエンドでテストし、変換後のデータが parquet ファイル内で重複せず、解決策を複数回実行できることを確認します。

pandas は pd として読み込まれており、extract()、transform()、load() 関数はすでに定義されています。

Instrucţiuni

100 XP
  • for ループを使って ETL パイプラインを3回実行します。
  • 各イテレーションで clean_tax_data の shape を出力(print)します。
  • "clean_tax_data.parquet" ファイルに保存された DataFrame を読み込み、to_validate 変数に代入します。
  • 各パイプライン実行でデータが重複していないことを確認するため、to_validate DataFrame の shape を clean_tax_rate の shape と比較して出力します。