Aan de slagGa gratis aan de slag

De wonderlijke tovenaar van NRC

Last but not least ga je aan de slag met het NRC-lexicon, dat woorden labelt met meerdere emotionele toestanden. Weet je Plutchiks emotiewiel nog? Het NRC-lexicon tagt woorden volgens Plutchiks 8 emoties plus positief/negatief.

In deze oefening komt een nieuwe operator voorbij, %in%, die een vector vergelijkt met een andere. In de onderstaande code geeft %in% de waarden FALSE, FALSE, TRUE terug. Dat komt omdat binnen some_vec de 1 en 2 niet voorkomen in some_other_vector, maar 3 wel, en dus TRUE oplevert. De %in% is handig om overeenkomsten te vinden.

some_vec <- c(1, 2, 3)
some_other_vector <- c(3, "a", "b")
some_vec %in% some_other_vector

Een andere nieuwe operator is !. Voor logische voorwaarden keert ! het resultaat om. In het bovenstaande voorbeeld worden FALSE, FALSE, TRUE dus TRUE, TRUE, FALSE. In combinatie met %in% draait het de uitkomst om en is het handig om items te verwijderen die een match hebben.

!some_vec %in% some_other_vector

We hebben oz gemaakt, de tidy-versie van The Wizard of Oz, en nrc met het "NRC"-lexicon met hernoemde kolommen.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in R

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

oz_plutchik <- oz %>% 
  # Join to nrc lexicon by term = word
  inner_join(___, by = ___("___" = "___")) %>% 
  # Only consider Plutchik sentiments
  ___(!___ %in% c("___", "___")) %>%
  # Group by sentiment
  ___(___) %>% 
  # Get total count by sentiment
  ___(total_count = ___(___))
Code bewerken en uitvoeren