1. 学ぶ
  2. /
  3. コース
  4. /
  5. tidyverse で学ぶカテゴリ型データ

Connected

演習

比率でカテゴリをまとめる

特定のレベルを「その他」に変える、あるいは結合したいと決めていないこともよくあります。むしろ、最もよく現れるレベルを残し、それ以外はすべて「other」にまとめたい場合があります。とくにレベル数が多く、その大半がまれなとき、可視化にとても役立ちます。ここでは、Kaggle のアンケートで「来年試してみたい Machine Learning 手法」についての質問を使って試してみます。multiple_choice_responses は読み込まれています。集計するときは、sort = TRUE はデフォルトで降順になることを思い出してください。

指示

100 XP
  • 手法を選択していない回答者を除外します。
  • MLMethodNextYearSelect から新しい変数 ml_method を作成し、回答者の少なくとも 5% が選んだタイトルは保持し、それ以外はデフォルト値の "Other" にまとめます。
  • 最後に、新しい変数を降順で並べ替えて集計します。