1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶ ETL と ELT

Connected

演習

pytest でユニットテストを書く

この演習では、データパイプラインを検証するユニットテストの作成を練習します。assert などのツールを使ってテストを構築し、データパイプラインが期待どおりに動作しているかを判断します。

pandas(pd としてインポート済み)に加えて、extract() と transform() の関数が用意されています。ここでは、以下に示す transform() 関数をテストします。

def transform(raw_data):
    raw_data["average_taxable_income"] = raw_data["total_taxable_income"] / raw_data["number_of_firms"]
    clean_data = raw_data.loc[raw_data["average_taxable_income"] > 100, :]
    clean_data.set_index("industry_name", inplace=True)
    return clean_data

指示

100 XP
  • pytest ライブラリをインポートします。
  • clean_tax_data 変数に格納された値が pd.DataFrame のインスタンスであることをアサートします。
  • clean_tax_data DataFrame の列数が、raw_tax_data DataFrame に含まれる列よりも多いことを検証します。