1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで欠損データに対処する

Connected

演習

カテゴリ列の序数エンコーディング

カテゴリ値の補完(インプテーション)では、数値の補完に比べていくつか手順が増えます。文字列には統計演算を直接適用できないため、まず数値に変換する必要があります。

ここでは、レストランが記録した顧客の嗜好や選択を含むユーザープロファイルのデータセットを使います。カテゴリ特徴量のみで構成されています。この演習では、sklearn の OrdinalEncoder を使って、カテゴリ列 'ambience' を数値に変換します。DataFrame は users として読み込まれており、OrdinalEncoder() 関数も読み込まれています。

users DataFrame の head() と tail() はすでに表示されています。

指示

100 XP
  • 序数エンコーダーオブジェクトを作成し、ambience_ord_enc に代入します。
  • users の 'ambience' 列から、欠損していない値を選択します。
  • ambience_not_null を形状 (-1, 1) にリシェイプします。
  • ambience の欠損していない値を、エンコード後の値で置き換えます。