1. 学ぶ
  2. /
  3. コース
  4. /
  5. XGBoost で学ぶ極限の勾配ブースティング

Connected

演習

カテゴリ列のエンコード I: LabelEncoder

XGBoost で住宅価格データを扱うために必要な準備が見えたところで、手順を一つずつ進めていきます。

まずは欠損値の補完です。先ほど見たように、LotFrontage 列には多くの欠損があります。次に、データセット内のカテゴリ列を one-hot エンコーディングで数値に変換する必要があります。アイデアの復習には、Supervised Learning with scikit-learn のこの動画をご覧ください。

このデータには 5 つのカテゴリ列があります:MSZoning、PavedDrive、Neighborhood、BldgType、HouseStyle。Scikit-learn には、各カテゴリ列の値を整数に変換する LabelEncoder 関数があります。ここではこれを使う練習をします。

指示

100 XP
  • sklearn.preprocessing から LabelEncoder をインポートします。
  • .fillna() を使って、LotFrontage 列の欠損値を 0 で埋めます。
  • カテゴリ列用のブールマスクを作成します。df.dtypes が object に等しいかどうかで判定できます。
  • LabelEncoder オブジェクトを作成します。これは他の scikit-learn 推定器と同様にインスタンス化します。
  • すべてのカテゴリ列を LabelEncoder() で整数にエンコードします。これには、与えられたラムダ関数内で le の .fit_transform() メソッドを使います。