De wonderlijke tovenaar van NRC
Last but not least ga je aan de slag met het NRC-lexicon, dat woorden labelt met meerdere emotionele toestanden. Weet je Plutchiks emotiewiel nog? Het NRC-lexicon tagt woorden volgens Plutchiks 8 emoties plus positief/negatief.
In deze oefening komt een nieuwe operator voorbij, %in%, die een vector vergelijkt met een andere. In de onderstaande code geeft %in% de waarden FALSE, FALSE, TRUE terug. Dat komt omdat binnen some_vec de 1 en 2 niet voorkomen in some_other_vector, maar 3 wel, en dus TRUE oplevert. De %in% is handig om overeenkomsten te vinden.
some_vec <- c(1, 2, 3)
some_other_vector <- c(3, "a", "b")
some_vec %in% some_other_vector
Een andere nieuwe operator is !. Voor logische voorwaarden keert ! het resultaat om. In het bovenstaande voorbeeld worden FALSE, FALSE, TRUE dus TRUE, TRUE, FALSE. In combinatie met %in% draait het de uitkomst om en is het handig om items te verwijderen die een match hebben.
!some_vec %in% some_other_vector
We hebben oz gemaakt, de tidy-versie van The Wizard of Oz, en nrc met het "NRC"-lexicon met hernoemde kolommen.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in R
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
oz_plutchik <- oz %>%
# Join to nrc lexicon by term = word
inner_join(___, by = ___("___" = "___")) %>%
# Only consider Plutchik sentiments
___(!___ %in% c("___", "___")) %>%
# Group by sentiment
___(___) %>%
# Get total count by sentiment
___(total_count = ___(___))