1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

演習

Corr() を使う

「相関は因果を意味しない」というよくある注意は大切です。しかし、相関はモデルで使えそうな特徴量を探し始める手がかりにもなります。 この演習では、データを初めて手探りしながら、パターンを見つける感覚をつかみます。

列名を含むリスト columns が用意されています。今回の演習では、これらの各列と 'SALESCLOSEPRICE' との相関を計算し、その最大値を見つけます。

指示

100 XP
  • for ループを使って columns を反復処理します。
  • 各ループ内で、現在の列と 'SALESCLOSEPRICE' の相関を corr() メソッドで計算します。
  • 観測された相関の最大値と、その列名を更新するロジックを作成します。
  • 'SALESCLOSEPRICE' と最も相関が高い列名を出力します。