1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Exploratory Data Analysis in R

Connected

cvičení

Spam a num_char

Existuje souvislost mezi spamem a délkou e-mailu? Dají se představit argumenty pro obě strany:

  • Spam bývá spíše krátká zpráva lákající mě na kliknutí na odkaz, nebo
  • Běžné e-maily jsou spíše kratší, protože s přáteli si píšu stručně a frequently.

V tomto cvičení pomocí datasetu email otázku vyřešíš. Začni tím, že si otevřeš nápovědu a podíváš se na všechny proměnné příkazem ?email.

Při zkoumání vztahu mezi spamem a délkou e-mailu využij tuto příležitost k procvičení propojení řetězce dplyr s vrstvami objektu ggplot2.

Pokyny

100 XP

Pracuj s datasetem email.

  • Načti balíčky ggplot2, dplyr a openintro.
  • Pomocí group_by() a summarize() vypočítej vhodné míry středu a variability proměnné num_char zvlášť pro spam a pro ostatní e-maily. Nové sloupce vytvořené funkcí summarize() nemusíš pojmenovávat.
  • Sestav sadu krabicových grafů vedle sebe, aby byl vidět vztah mezi těmito dvěma proměnnými. Hodí se přitom přidat pomocí mutate() nový sloupec s logaritmicky transformovanou verzí proměnné num_char.