1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶ ETL と ELT

Connected

演習

データパイプラインを「チェックポイント」で検証する

この演習では、CSVファイルから税データを抽出し、新しい列を作成し、課税所得の平均に基づいて行をフィルタリングし、データをparquetファイルに保存するデータパイプラインを扱います。

pandas は pd として読み込まれており、extract()、transform()、load() 関数はすでに定義されています。これらの関数を使って、実行の各段階にあるチェックポイントでデータパイプラインを検証します。

指示1 / 3

undefined XP
    1
    2
    3
  • raw_tax_data と clean_tax_data の各DataFrameについて .shape を表示し、次元の違いを確認します。