Datenvorbereitung
Während der US-Wahl 2016 wurden russische Tweet-Bots eingesetzt, um politische Rhetorik sowohl an Demokraten als auch an Republikaner zu verbreiten. Du hast einen Datensatz solcher Tweets mit dem Namen russian_tweets erhalten. Du möchtest diese Tweets als entweder linksorientiert (Demokraten) oder rechtsorientiert (Republikaner) klassifizieren. Bevor du ein Klassifikationsmodell bauen kannst, musst du den Text für das Modeling bereinigen und vorbereiten.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit R
Anleitung zur Übung
- Schließe die Tokenisierung ab, indem du die Tokens stemmst.
- Verwende
cast_dtm(), um eine Document-Term-Matrix zu erstellen. - Gewichte die Document-Term-Matrix mit tf-idf.
- Gib die Matrix aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Stem the tokens
russian_tokens <- russian_tweets %>%
unnest_tokens(output = "word", token = "words", input = content) %>%
anti_join(stop_words) %>%
___(word = ___(word))
# Create a document term matrix using TFIDF weighting
tweet_matrix <- russian_tokens %>%
count(tweet_id, word) %>%
___(document = ___, term = ___,
value = n, weighting = tm::___)
# Print the matrix details
___