1. Nauka
  2. /
  3. Kursy
  4. /
  5. PySparkで学ぶ特徴量エンジニアリング

Connected

ćwiczenie

列リストをドロップする

このデータセットには多くの特徴量がありますが、すべてが有用とは限りません。役に立つ形に整えるのが難しいものも多く含まれています。まずは、すぐに役立たない列をドロップして取り除きましょう。

  • 'STREETNUMBERNUMERIC': 物件の郵便住所における番地番号
  • 'FIREPLACES': 物件内の暖炉の数
  • 'LOTSIZEDIMENSIONS': 区画形状の自由記述テキスト
  • 'LISTTYPE': 売買種別の定義済み値セット
  • 'ACRES': 区画面積(数値)

Instrukcje

100 XP
  • 上の列説明を読み、df として該当列にフィルタ済みのデータフレームの上位30件を show() で確認してください。
  • 住宅価格の予測にあまり関係しないという観点から、ドロップする2列のリスト cols_to_drop を作成します。コンピュータは文脈を理解せず、明示的な数値だけを解釈する点に注意してください。
  • drop() 関数を使って、データフレーム df から cols_to_drop に含まれる列を削除してください。