1. 学ぶ
  2. /
  3. コース
  4. /
  5. Pythonで挑むKaggleコンペティション

Connected

演習

One-Hot encoding

label encoding の問題点は、カテゴリ間に順位関係があると暗黙に仮定してしまうことです。そこで、特徴量 "RoofStyle" と "CentralAir" のエンコード方法を one-hot encoding に変えてみましょう。House Prices の Kaggle コンペティションの train と test の各 DataFrame は、すでにワークスペースに用意されています。

バイナリ特徴量(カテゴリが2つだけのカテゴリカル特徴量)を扱う場合は、label encoder のみを適用することが推奨される点を思い出してください。

あなたの目標は、挙げた特徴量のうちどれがバイナリではないかを特定し、その特徴量に対してのみ one-hot encoding を適用することです。

指示1 / 4

undefined XP
    1
    2
    3
    4
  • pandas の value_counts() メソッドを使って、"RoofStyle" と "CentralAir" の分布を確認しましょう。