1. Learn
  2. /
  3. Kurser
  4. /
  5. Eksploracyjna analiza danych w R

Connected

övning

Spam i num_char

Czy istnieje związek między spamem a długością wiadomości e-mail? Można to sobie wyobrazić na dwa sposoby:

  • Spam to częściej krótkie wiadomości zachęcające do kliknięcia w link, lub
  • Zwykłe e-maile są krótsze, bo na co dzień wymieniam ze znajomymi krótkie wiadomości.

W tym ćwiczeniu użyjesz zbioru danych email, żeby rozstrzygnąć tę kwestię. Zacznij od wywołania pliku pomocy i zapoznania się ze wszystkimi zmiennymi za pomocą ?email.

Badając związek między spamem a długością wiadomości, skorzystaj z okazji, żeby połączyć łańcuch dplyr z warstwami obiektu ggplot2.

Instruktioner

100 XP

Korzystając ze zbioru danych email:

  • Wczytaj pakiety ggplot2, dplyr i openintro.
  • Oblicz odpowiednie miary środka i rozproszenia zmiennej num_char osobno dla spamu i wiadomości niebędących spamem, używając group_by() i summarize(). Nie musisz nadawać nazw nowym kolumnom tworzonym przez summarize().
  • Utwórz wykresy pudełkowe zestawione obok siebie, aby zwizualizować związek między tymi samymi dwiema zmiennymi. Przyda się mutate() do dodania nowej kolumny zawierającej logarytmicznie przekształconą wersję zmiennej num_char.