1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

Bài tập

より深い特徴量

これまでの演習では、2つの特徴量を組み合わせることで、予測モデルに有用な追加の特徴量を作れることを見てきました。この演習では、3つの変数の効果を1つにまとめて「より深い」特徴量を作成します。さらに、より深く複雑な特徴量が常により良い予測子になるのかを確認します。

Hướng dẫn

100 XP
  • SQFTBELOWGROUND と SQFTABOVEGROUND を足し合わせて、新しい列 Total_SQFT を作成します。
  • Total_SQFT を使って、BATHSTOTAL と組み合わせた新たな特徴量 BATHS_PER_1000SQFT を作成します。Total_SQFT は1000単位にスケーリングしてください。
  • describe() を使って、新しい特徴量 BATHS_PER_1000SQFT の最小値、最大値、平均を確認します。何かおかしな点はありませんか?
  • \(x\) に Total_SQFT と BATHS_PER_1000SQFT、\(y\) に SALESCLOSEPRICE をそれぞれ用いた jointplots() を2つ作成し、どちらがより良い R**2 フィットになるかを確認します。このより複雑な特徴量は、SALESCLOSEPRICE との関係がより強くなっていますか?