カテゴリ列のエンコード I: LabelEncoder

XGBoost で住宅価格データを扱うために必要な準備が見えたところで、手順を一つずつ進めていきます。

まずは欠損値の補完です。先ほど見たように、LotFrontage 列には多くの欠損があります。次に、データセット内のカテゴリ列を one-hot エンコーディングで数値に変換する必要があります。アイデアの復習には、Supervised Learning with scikit-learn のこの動画をご覧ください。

このデータには 5 つのカテゴリ列があります：MSZoning、PavedDrive、Neighborhood、BldgType、HouseStyle。Scikit-learn には、各カテゴリ列の値を整数に変換する LabelEncoder 関数があります。ここではこれを使う練習をします。

sklearn.preprocessing から LabelEncoder をインポートします。
.fillna() を使って、LotFrontage 列の欠損値を 0 で埋めます。
カテゴリ列用のブールマスクを作成します。df.dtypes が object に等しいかどうかで判定できます。
LabelEncoder オブジェクトを作成します。これは他の scikit-learn 推定器と同様にインスタンス化します。
すべてのカテゴリ列を LabelEncoder() で整数にエンコードします。これには、与えられたラムダ関数内で le の .fit_transform() メソッドを使います。

演習

カテゴリ列のエンコード I: LabelEncoder

指示

.css-6su6fj{-webkit-flex-shrink:0;-ms-flex-negative:0;flex-shrink:0;}演習

指示

演習