1. Učit se
  2. /
  3. Kurzy
  4. /
  5. Sentiment Analysis in R

Connected

cvičení

Kouzelný čaroděj NRC

A nakonec si vyzkoušíš práci s lexikonem NRC, který označuje slova podle různých emočních stavů. Pamatuješ si Plutchikovo kolo emocí? Lexikon NRC přiřazuje slovům štítky podle Plutchikových 8 emocí a navíc kategorie pozitivní/negativní.

V tomto cvičení se objeví nový operátor %in%, který porovnává jeden vektor s druhým. V kódu níže vrátí %in% hodnoty FALSE, FALSE, TRUE. Je to proto, že v some_vec se hodnoty 1 a 2 ve some_other_vector nenachází, zatímco 3 tam je, a proto vrátí TRUE. Operátor %in% se hodí k vyhledávání shod.

some_vec <- c(1, 2, 3)
some_other_vector <- c(3, "a", "b")
some_vec %in% some_other_vector

Dalším novým operátorem je !. U logických podmínek ! výsledek obrátí. V příkladu výše se FALSE, FALSE, TRUE změní na TRUE, TRUE, FALSE. V kombinaci s %in% obrací výsledek, a hodí se tak k odfiltrování nalezených položek.

!some_vec %in% some_other_vector

Připravili jsme pro tebe oz – uklizenou verzi textu Čaroděje ze země Oz – a také nrc s lexikonem „NRC" s přejmenovanými sloupci.

Pokyny 1/2

undefined XP
    1
    2
  • Proveď inner join tabulky oz s lexikonem nrc.
    • K propojení tibble použij inner_join().
    • Propoj pomocí by sloupce term v textu a word v lexikonu.
  • Vyfiltruj pouze Plutchikovy emoce a odstraň slova označená jako pozitivní nebo negativní.
    • Pomocí filter() ponech pouze řádky, kde sentiment není "positive" ani "negative".
  • Seskup podle sentimentu.
    • Zavolej group_by() s argumentem sentiment bez uvozovek.
  • Zjisti celkový počet výskytů každého sentimentu.
    • Zavolej summarize() a nastav total_count na sum() sloupce count.
    • Výsledek ulož do oz_plutchik.