Gegevens voorbereiden
Tijdens de Amerikaanse verkiezingen van 2016 werden Russische tweetbots gebruikt om voortdurend politieke retoriek te verspreiden onder zowel democraten als republikeinen. Je hebt een gegevensset met zulke tweets gekregen, russian_tweets. Je gaat deze tweets classificeren als links (democraat) of rechts (republikein). Voordat je een classificatiemodel kunt bouwen, moet je de tekst opschonen en voorbereiden voor modellering.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in R
Oefeninstructies
- Rond het tokeniseren af door de tokens te stemmen.
- Gebruik
cast_dtm()om een document-termmatrix te maken. - Weeg de document-termmatrix met tf-idf-weging.
- Print de matrix.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Stem the tokens
russian_tokens <- russian_tweets %>%
unnest_tokens(output = "word", token = "words", input = content) %>%
anti_join(stop_words) %>%
___(word = ___(word))
# Create a document term matrix using TFIDF weighting
tweet_matrix <- russian_tokens %>%
count(tweet_id, word) %>%
___(document = ___, term = ___,
value = n, weighting = tm::___)
# Print the matrix details
___