1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Exploratory Data Analysis in R

Connected

cvičení

Slučování kategorií

Pokud ti přišla práce se silně zešikmeným rozdělením proměnné exclaim_mess náročná, proměnná image — tedy počet obrázků připojených k e-mailu — představuje ještě větší výzvu. Spusť v konzoli následující kód, abys získal/a představu o jejím rozdělení:

table(email$image)

Tento příkaz spočítá počet případů v každé kategorii (například e-mailů bez obrázků bylo 3 811). Protože vyšší počty obrázků mají velmi nízké frekvence, sloučíme proměnnou image do kategorické proměnné, která bude říkat, jestli e-mail obsahoval alespoň jeden obrázek. V tomto cvičení tuto novou proměnnou vytvoříš a prozkoumáš její vztah se spamem.

Pokyny

100 XP

Začni s datasetem email a vytvoř kontinuální řetězec operací, který splní následující úkoly:

  • Vytvoř novou proměnnou has_image, která bude mít hodnotu TRUE, pokud je počet obrázků větší než nula, a FALSE v ostatních případech.
  • Vytvoř vhodný graf z datasetu email, který zobrazí vztah mezi proměnnou has_image a proměnnou spam.