1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Exploratory Data Analysis in R

Connected

cvičení

Odstranění úrovní

Kontingenční tabulka z předchozího cvičení ukázala, že některé úrovně mají velmi nízké počty. Pro zjednodušení analýzy se vyplatí takové úrovně odstranit.

V R to vyžaduje dva kroky: nejprve odfiltrovat řádky s úrovněmi, které mají velmi nízké počty, a poté tyto úrovně odebrat z faktorové proměnné pomocí droplevels(). Funkce droplevels() totiž zachovává úrovně, které mají jen 1 nebo 2 záznamy – odstraní pouze ty, které v datové sadě vůbec neexistují.

Pokyny

100 XP

Kontingenční tabulka z předchozího cvičení je dostupná ve tvém pracovním prostředí jako tab.

  • Načti balíček dplyr.
  • Vypiš tab a zjisti, která úroveň proměnné align má nejmenší celkový počet záznamů.
  • Pomocí filter() odfiltruj z comics všechny řádky s touto úrovní a poté odstraň nepoužívanou úroveň pomocí droplevels(). Výslednou zjednodušenou datovou sadu ulož jako comics_filtered.