1. Nauka
  2. /
  3. Kursy
  4. /
  5. Eksploracyjna analiza danych w R

Connected

ćwiczenie

Odpowiadanie na pytania za pomocą łańcuchów

Gdy masz konkretne pytanie dotyczące zbioru danych, możesz znaleźć odpowiedź, budując odpowiedni łańcuch kodu R. Rozważ na przykład następujące pytanie: „Czy wśród wiadomości e-mail, które nie są spamem, te wysyłane do wielu odbiorców są zazwyczaj krótsze?"

Odpowiedzi dostarcza poniższy łańcuch:

email %>%
   filter(spam == "not-spam") %>%
   group_by(to_multiple) %>%
   summarize(median(num_char))

Kod jasno pokazuje, że num_char mierzy długość wiadomości, a median() określa typową wartość. Po uruchomieniu tego kodu przekonasz się, że odpowiedź brzmi „tak": typowa długość wiadomości niebędących spamem, wysłanych do wielu osób, jest nieco mniejsza niż tych wysłanych do jednej osoby.

Ten łańcuch zakończył się statystykami podsumowującymi, ale inne mogą kończyć się wykresem – wszystko zależy od pytania, na które szukasz odpowiedzi.

Instrukcje

100 XP

Zbuduj łańcuch, który odpowie na każde z poniższych pytań dotyczących zmiennej dollar.

  • Czy wśród wiadomości zawierających słowo „dollar" typowy spam zawiera więcej wystąpień tego słowa niż typowa wiadomość niebędąca spamem? Utwórz statystykę podsumowującą, która odpowie na to pytanie.
  • Jeśli natkniesz się na wiadomość z więcej niż 10 wystąpieniami słowa dollar, czy bardziej prawdopodobne jest, że to spam czy nie? Utwórz wykres słupkowy, który odpowie na to pytanie.