1. 学ぶ
  2. /
  3. コース
  4. /
  5. Python で学ぶ Machine Learning のための特徴量エンジニアリング

Connected

演習

あまり見かけないカテゴリへの対応

ある特徴量は非常に多くのカテゴリを持つ一方で、出現頻度の分布が極端に偏っていることがあります。たとえば、Data Scienceでよく使われるプログラミング言語には Python、R、Julia などの一般的な選択肢がありますが、FORTRAN や C のような個別の選好を持つ人もいます。このような場合、すべての値に対して特徴量を作るのではなく、出現頻度の高いものだけを対象にするほうがよいことがあります。

指示1 / 3

undefined XP
    1
    2
    3
  • so_survey_df の Country 列を Series として抽出し、countries に代入します。
  • 作成した countries Series の各カテゴリの件数を求めます。