1. Nauka
  2. /
  3. Kursy
  4. /
  5. Eksploracyjna analiza danych w R

Connected

ćwiczenie

Łączenie poziomów

Jeśli praca z silną skośnością zmiennej exclaim_mess była trudna, to zmienna image – reprezentująca liczbę załączników graficznych w każdej wiadomości – stanowi jeszcze większe wyzwanie. Uruchom poniższy kod w konsoli, aby lepiej zrozumieć jej rozkład:

table(email$image)

Przypomnij sobie, że to polecenie zlicza przypadki w każdej kategorii (na przykład było 3811 wiadomości z 0 obrazkami). Ze względu na bardzo niskie liczebności przy większych wartościach, zmienną image warto przekształcić w zmienną kategoryczną, wskazującą, czy dana wiadomość zawierała przynajmniej jeden obraz. W tym ćwiczeniu utworzysz tę nową zmienną i zbadasz jej związek ze spamem.

Instrukcje

100 XP

Używając email jako punktu wyjścia, zbuduj potok łączący kolejno następujące zadania:

  • Utwórz nową zmienną o nazwie has_image, która przyjmuje wartość TRUE, gdy liczba obrazków jest większa od zera, i FALSE w przeciwnym wypadku.
  • Stwórz odpowiedni wykres na podstawie email, aby zwizualizować zależność między has_image a spam.