1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで学ぶMachine Learningの前処理

Connected

演習

関連する特徴量の選択

この演習では、volunteer データセットの中で冗長な列を特定し、関連する特徴量だけを残すように特徴量選択を行い、該当する列からなる DataFrame を作成します。

例えば、コンソールで volunteer データセットを確認すると、locality、region、postalcode の3つの位置情報に関する特徴量が見つかります。これらは関連する情報を含むため、1つだけ残すのが理にかなっています。

コンソールで volunteer の特徴量を確認し、どの特徴量が冗長かを見つけてみてください。

指示

100 XP
  • 冗長な列名のリストを作成し、to_drop 変数に保存します:
    • 位置情報に関する特徴量のうち、残すのは postalcode のみとします。
    • 特徴量エンジニアリングを施した特徴量も冗長となります。
  • データセットから to_drop リストにある列を削除します。
  • 選択された列を確認するため、volunteer_subset の .head() を出力してください。