1. 学ぶ
  2. /
  3. コース
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

演習

何を予測しますか?

次のフィールド(列)のうち、私たちが予測しようとしている値はどれですか。

  • TAXES
  • SALESCLOSEPRICE
  • DAYSONMARKET
  • LISTPRICE

指示

100 XP
  • 上の列の中から、従属変数 $Y$ として使用する列を特定してください。
  • 読み込まれているデータセット df から、select() を使って従属変数のみを抽出し、変数 Y_df に保存します。
  • Y_df に対して describe() を実行し、show() を呼び出して、従属変数の要約統計量を表示します。