1. 学ぶ
  2. /
  3. コース
  4. /
  5. XGBoost で学ぶ極限の勾配ブースティング

Connected

演習

カテゴリ変数のエンコーディング III: DictVectorizer

では、パイプラインに進む前に最後のひと工夫です。先ほど行った 2 段階の手順(LabelEncoder の後に OneHotEncoder)は、DictVectorizer を使うと簡略化できます。

DataFrame を辞書に変換してから DictVectorizer を使うと、ラベルエンコーディングとワンホットエンコーディングを一度に実行できます。

この演習では、この戦略を実際に試してみましょう!

指示

100 XP
  • sklearn.feature_extraction から DictVectorizer をインポートします。
  • df を .to_dict() メソッドで "records" を引数に指定し、df_dict という辞書に変換します。
  • キーワード引数 sparse=False で DictVectorizer オブジェクト dv をインスタンス化します。
  • .fit_transform() メソッドを使って、df_dict に DictVectorizer を適用します。
  • 結果の先頭 5 行と語彙を出力するには 'Submit Answer' を押してください。