1. Learn
  2. /
  3. 课程
  4. /
  5. Sentiment Analysis in R

Connected

道练习

AFINN: jsem tvůj člověk

Teď přejdeme na lexikon AFINN. Lexikon AFINN používá číselné hodnoty od 5 do -5, nejde tedy jen o pozitivní nebo negativní hodnocení. Na rozdíl od sloupce sentiment v Bing lexikonu se sloupec se skóre sentimentu v AFINN jmenuje value.

Same jako dřív nejdřív použiješ inner_join() a pak count(). Aby ses dostal/a k součtu skóre za každý řádek, využijeme funkce dplyru group_by() a summarize(). Funkce group_by() vezme existující datový rámec a převede ho na seskupený datový rámec, kde se operace provádějí „po skupinách". Funkce summarize() ti pak umožní vypočítat hodnotu pro každou skupinu pomocí agregační funkce, jako je sum() nebo mean(). V praxi to vypadá třeba takto:

data_frame %>% 
    group_by(book_line) %>% 
    summarize(total_value = sum(book_line))

V tidy verzi Huckleberry Finna obsahuje řádek 9703 slova „best", „ever", „fun", „life" a „spirit". Slova „best" a „fun" mají AFINN skóre 3, respektive 4. Po agregaci bude mít řádek 9703 celkové skóre 7.

V tidyverse se preferuje filter() před subset(), protože kombinuje funkcionalitu subset() s jednodušší syntaxí. Tady je příklad, který filtruje data_frame tak, aby hodnota ve sloupci column1 byla rovna 24. Všimni si, že název sloupce není v uvozovkách.

filter(data_frame, column1 == 24)

Objekt afinn obsahuje lexikon AFINN. Objekt huck je tidy verze románu Marka Twaina Dobrodružství Huckleberryho Finna připravená k analýze.

Řádek 5400 zní: All the loafers looked glad; I reckoned they was used to having fun out of Boggs. Stop slova a interpunkce jsou v datasetu již odstraněny.

说明 1 / 共 3 个

undefined XP
    1
    2
    3
  • Spusť kód, podívej se na řádek 5400 a prohlédni si skóre sentimentu pro vybraná slova.
  • Proveď inner_join() objektu huck s lexikonem afinn.
    • Pamatuj, že huck je už napojený rourou, takže stačí přidat lexikon.
    • Spoj podle sloupce term v textu a sloupce word v lexikonu.
  • Pomocí count() s argumenty value a line spočítej pozorování po skupinách.
    • Výsledek přiřaď do huck_afinn.