1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Kategorická data v Tidyverse

Connected

Cvičení

Slučování proměnných podle podílu

Často nebudeš vědět, které konkrétní úrovně chceš sloučit do kategorie „other" nebo seskupit dohromady. Místo toho budeš chtít ponechat nejčastější úrovně a vše ostatní zařadit do kategorie „other". Zvláště když existuje mnoho úrovní a většina z nich je vzácná, je to užitečné pro přehledné zobrazení dat. Vyzkoušejme to na otázce z průzkumu Kaggle, kde respondenti uváděli, jaké metody strojového učení chtějí vyzkoušet příští rok. Datová sada multiple_choice_responses je pro tebe načtená. Při počítání pamatuj, že sort = TRUE odpovídá sestupnému řazení.

Pokyny

100 XP
  • Odstraň respondenty, kteří žádnou metodu nevybrali.
  • Z proměnné MLMethodNextYearSelect vytvoř novou proměnnou ml_method, která zachová názvy metod, jež zvolilo alespoň 5 % respondentů, a zbytek sloučí jako "Other" (výchozí hodnota).
  • Nakonec spočítej hodnoty nové proměnné seřazené sestupně.