1. Learn
  2. /
  3. Courses
  4. /
  5. Pythonで学ぶ次元削減

Connected

Exercise

高い相関をもつ特徴量の除外

数値の ANSUR データセットで、高い相関をもつ特徴量を自動的に除去します。相関行列を計算し、相関係数が 0.95 より大きい、または -0.95 より小さい列を除外します。

相関行列では各相関係数が 2 回(A と B の相関は B と A の相関と同じ)登場するため、相関の片方だけを見て、一方の特徴量のみを削除するようにします。そのためにマスクのテクニックを使いましょう。

Instructions

100 XP
  • ansur_df の相関行列を計算し、その絶対値を取りましょう。
  • 右上の三角部分が True になるブールマスクを作成し、相関行列に適用します。
  • 相関係数のしきい値を 0.95 に設定します。
  • DataFrame から、to_drop に含まれるすべての列を削除します。