1. Learn
  2. /
  3. Courses
  4. /
  5. Python で学ぶ ETL と ELT

Connected

Exercise

pandas の DataFrame をフィルタリングする

ソースシステムからデータを抽出したら、次は変換の出番です。多くの場合、ソースデータには下流のユースケースに不要な情報が含まれています。このような場合は、データパイプラインの「transform」段階で次元数を減らすべきです。

pandas は pd としてインポート済みで、extract() 関数を使って、渡されたパスから DataFrame を読み込めます。

Instructions

100 XP
  • extract() 関数を使って、"sales_data.parquet" パスに保存された DataFrame を読み込みます。
  • transform() 関数を更新し、"Quantity Ordered" が 1 より大きいすべての行と列を返すようにします。
  • さらに clean_data DataFrame をフィルタリングし、"Order Date"、"Quantity Ordered"、"Purchase Address" の列のみを含めます。
  • フィルタリング後の DataFrame を返します。