Sentiment en emotie
Binnen de sentiments-gegevensset bevat de nrc-lexicon een woordenboek met woorden en een bijbehorende emotie. Emoties zoals joy, trust, anticipation en andere komen in deze gegevensset voor.
In de Russische tweetbot-gegevensset die je hebt onderzocht, heb je gekeken naar tweets die zijn verstuurd door zowel een links- als een rechtsgeoriënteerde tweetbot. Verken de inhoud van de tweets die zijn verstuurd door de links georiënteerde (democratische) tweetbot met behulp van de nrc-lexicon. De linkse tweets, left, zijn getokenized in woorden, waarbij stopwoorden zijn verwijderd.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in R
Oefeninstructies
- Maak een tibble met alleen de anticipation-woorden uit de
nrc-lexicon. - Maak een tibble met alleen de joy-woorden uit de
nrc-lexicon. - Print de belangrijkste
anticipation-woorden die inleft_tokenszijn gevonden. - Print de belangrijkste
joy-woorden die inleft_tokenszijn gevonden.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
left_tokens <- left %>%
unnest_tokens(output = "word", token = "words", input = content) %>%
anti_join(stop_words)
# Dictionaries
anticipation <- ___("nrc") %>%
___(sentiment == "anticipation")
joy <- ___("nrc") %>%
___(sentiment == "joy")
# Print top words for Anticipation and Joy
left_tokens %>%
___(anticipation, by = "word") %>%
___(word, sort = TRUE)
left_tokens %>%
___(joy, by = "word") %>%
___(word, sort = TRUE)