1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

演習

差分

既存の特徴量を使って新しい特徴量を作る方法を試してみましょう。米国中西部では、一戸建て住宅の多くに緑地として使える余剰地があります。この例では、新しい特徴量 'YARD_SIZE' を作成し、その新しい特徴量が目的変数との相関を持つかどうかを確認します。

指示

100 XP
  • withColumn() を使って LOT_SIZE_SQFT という新しい列を作成し、ACRES を換算係数 acres_to_sqfeet を掛けて平方フィートに変換します。
  • LOT_SIZE_SQFT から FOUNDATIONSIZE を引いて、YARD_SIZE という別の新しい列を作成します。
  • 独立変数 YARD_SIZE、FOUNDATIONSIZE、LOT_SIZE_SQFT それぞれについて、従属変数 SALESCLOSEPRICE に対して corr() を実行します。新しい特徴量は、その構成要素のどちらよりも強い相関を示しますか?