1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶ ETL と ELT

Connected

演習

フィクスチャを使ったデータパイプラインのユニットテスト

直前の動画で、ユニットテストはデータパイプラインへの信頼性を高め、開発中のバグの検出にも役立つことを学びました。この演習では、pytest ライブラリと assert を使って、フィクスチャとユニットテストの両方を書く練習をします。

これからユニットテストを作成する対象の transform 関数を以下に示します。pandas は pd としてインポート済みで、pytest() ライブラリも読み込まれて使用できる状態です。

def transform(raw_data):
    raw_data["tax_rate"] = raw_data["total_taxes_paid"] / raw_data["total_taxable_income"]
    raw_data.set_index("industry_name", inplace=True)
    return raw_data

指示1 / 2

undefined XP
    1
    2
  • clean_tax_data という名前の pytest フィクスチャを作成します。
  • transform() 関数を raw_data データセットに適用し、結果を clean_data 変数に保存して返します。