1. Nauka
  2. /
  3. Kursy
  4. /
  5. Eksploracyjna analiza danych w R

Connected

ćwiczenie

Spam i !!!

Przyjrzyjmy się bardziej oczywistemu wskaźnikowi spamu: wykrzyknikom. Zmienna exclaim_mess zawiera liczbę wykrzykników w każdej wiadomości. Korzystając ze statystyk podsumowujących i wizualizacji, sprawdź, czy istnieje związek między tą zmienną a tym, czy wiadomość jest spamem.

Eksperymentuj z różnymi typami wykresów, aż znajdziesz ten najbardziej informatywny. Pamiętaj, że omawialiśmy:

  • Wykresy pudełkowe zestawione obok siebie
  • Histogramy z podziałem na panele
  • Nałożone na siebie wykresy gęstości

Instrukcje

100 XP

Zbiór danych email jest nadal dostępny w twoim środowisku pracy.

  • Oblicz odpowiednie miary środka i rozproszenia zmiennej exclaim_mess osobno dla spamu i wiadomości niebędących spamem, używając funkcji group_by() i summarize().
  • Stwórz odpowiedni wykres wizualizujący zależność między tymi samymi dwiema zmiennymi – w razie potrzeby zastosuj transformację logarytmiczną.
  • Jeśli zdecydujesz się na transformację logarytmiczną, pamiętaj, że log(0) daje w R wartość -Inf, która nie jest zbyt użyteczna! Możesz temu zaradzić, dodając małą liczbę (np. 0.01) do wyrażenia wewnątrz funkcji log(). Dzięki temu argument funkcji nigdy nie będzie zerem. To niewielkie przesunięcie w prawo nie wpłynie na wyniki.