1. Học hỏi
  2. /
  3. Khoa Học
  4. /
  5. Analiza sentymentu w R

Connected

Bài tập

Wykres pudełkowy

Wykresy pudełkowe to wygodny sposób na porównanie wielu rozkładów naraz. Ten kod pomoże ci zbudować kilka takich wykresów w zwartej formie.

W tym ćwiczeniu obiekt all_book_polarity jest już wczytany. Ramka danych zawiera dwie kolumny: book i polarity. Obejmuje wszystkie książki, dla których zastosowano funkcję polarity() z pakietu qdap. Poniżej znajdują się pierwsze 3 wiersze tego obiektu.

book polarity
14 huck 0.2773501
22 huck 0.2581989
26 huck -0.5773503

To ćwiczenie wprowadza funkcję tapply(), która pozwala stosować funkcje na nieregularnych tablicach. Przekazujesz wektor wartości oraz wektor czynników (ang. factors). Dla każdej kombinacji czynnika i wartości stosowany jest trzeci parametr – funkcja, np. min(). Oto przykładowy kod z użyciem tapply() na dwóch wektorach:

f1 <- as.factor(c("Group1", "Group2", "Group1", "Group2"))
stat1 <- c(1, 2, 1, 2)
tapply(stat1, f1, sum)

Wynikiem jest tablica, w której Group1 ma wartość 2 (1+1), a Group2 – wartość 4 (2+2).

Hướng dẫn

100 XP
  • Ponieważ obiekt jest już wczytany, zbadaj all_book_polarity za pomocą str().
  • Używając tapply(), przekaż kolejno: all_book_polarity$polarity, all_book_polarity$book oraz funkcję summary(). Wyświetli to statystyki opisowe dla 4 książek pod względem wyników polarity(). Można się spodziewać, że Oz i Huck Finn osiągną wyższe średnie niż Agamemnon czy Moby Dick. Zwróć szczególną uwagę na medianę.
  • Utwórz wykres pudełkowy za pomocą ggplot(), przekazując all_book_polarity.
    • Estetyka powinna być następująca: aes(x = book, y = polarity).
    • Używając +, dodaj warstwę geom_boxplot() z parametrem col = "darkred". Uważnie przyjrzyj się ciemnej linii w każdym pudełku – reprezentuje ona medianę.
    • Następnie dodaj kolejną warstwę geom_jitter(), aby nanieść punkty odpowiadające poszczególnym słowom.