1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Sentiment Analysis in R

Connected

cvičení

Krabicový graf

Snadný způsob, jak porovnat více rozdělení, je krabicový graf. Tento kód ti pomůže sestavit několik krabicových grafů a vytvořit přehlednou vizualizaci.

V tomto cvičení je objekt all_book_polarity už načtený. Datový rámec obsahuje dva sloupce: book a polarity. Zahrnuje všechny knihy, na které byla aplikována funkce polarity() z balíčku qdap. Tady jsou první 3 řádky tohoto objektu.

book polarity
14 huck 0.2773501
22 huck 0.2581989
26 huck -0.5773503

Toto cvičení představuje funkci tapply(), která ti umožňuje aplikovat funkce na nepravidelné pole. Zadáš vektor hodnot a vektor faktorů. Pro každou kombinaci faktoru a hodnoty se použije třetí parametr – funkce jako například min(). Tady je ukázka kódu s tapply() použitým na dva vektory.

f1 <- as.factor(c("Group1", "Group2", "Group1", "Group2"))
stat1 <- c(1, 2, 1, 2)
tapply(stat1, f1, sum)

Výsledkem je pole, kde Group1 má hodnotu 2 (1+1) a Group2 hodnotu 4 (2+2).

Pokyny

100 XP
  • Protože je objekt už načtený, prozkoumej all_book_polarity pomocí str().
  • Pomocí tapply() předej all_book_polarity$polarity, all_book_polarity$book a funkci summary(). Tím se vypíšou souhrnné statistiky pro 4 knihy z hlediska jejich skóre polarity(). Dalo by se očekávat, že Oz a Huck Finn budou mít vyšší průměry než Agamemnon nebo Moby Dick. Věnuj pozornost zejména mediánu.
  • Vytvoř krabicový graf pomocí ggplot() a předej mu all_book_polarity.
    • Estetika by měla být aes(x = book, y = polarity).
    • Pomocí + přidej geom_boxplot() s col = "darkred". Věnuj pozornost tmavé čáře v každém poli, která znázorňuje medián.
    • Dále přidej další vrstvu geom_jitter(), která zobrazí body pro každé ze slov.