1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Exploratory Data Analysis in R

Connected

cvičení

Spam a vykřičníky!!!

Podívejme se na zjevnější indikátor spamu: vykřičníky. Proměnná exclaim_mess obsahuje počet vykřičníků v každé zprávě. Pomocí souhrnných statistik a vizualizace zjisti, jestli existuje vztah mezi touto proměnnou a tím, zda je zpráva spam, nebo ne.

Vyzkoušej různé typy grafů, dokud nenajdeš ten nejinformativnější. Připomeň si, co už znáš:

  • Krabicové grafy vedle sebe
  • Histogramy v mřížce (faceted)
  • Překrývající se grafy hustoty

Pokyny

100 XP

Dataset email je stále dostupný ve tvém pracovním prostředí.

  • Pomocí group_by() a summarize() vypočítej vhodné míry středu a rozptylu proměnné exclaim_mess zvlášť pro spam a zprávy, které spamem nejsou.
  • Sestav vhodný graf pro vizualizaci vztahu mezi těmito dvěma proměnnými – v případě potřeby přidej logaritmickou transformaci.
  • Pokud se rozhodneš použít logaritmickou transformaci, nezapomeň, že log(0) je v R rovno -Inf, což není příliš užitečná hodnota! Tohle obejdeš tak, že přičteš malé číslo (například 0.01) k výrazu uvnitř funkce log(). Díky tomu hodnota nikdy nebude nula. Toto malé posunutí doprava výsledky neovlivní.