1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶ ETL と ELT

Connected

演習

Postgres データベースにロードしたデータの検証

この演習では、いよいよエンドツーエンドのデータパイプラインを構築します。パイプラインは JSON ファイルから学校のテストスコアを抽出し、欠損スコアのある行を削除してデータを変換します。さらに、各学校について合計スコアに基づき、所在する都市ごとに順位付けを行います。最後に、変換後のデータセットを Postgres データベースに保存します。

スタートしやすいように、extract() と transform() 関数はすでに作成済みで、以下のとおりに使われています。また、pandas は pd としてインポート済みです。頑張ってください!

# テストスコアを抽出してクリーンアップする。
raw_testing_scores = extract("testing_scores.json")
cleaned_testing_scores = transform(raw_testing_scores)

指示1 / 2

undefined XP
    1
    2
  • load() 関数を更新し、clean_data DataFrame を schools データベース内の scores_by_city テーブルに書き込みます。
  • もし scores_by_city テーブルにデータが存在する場合は、更新されたデータで必ず置き換えるようにします。