Aan de slagGa gratis aan de slag

Gegevens voorbereiden

Tijdens de Amerikaanse verkiezingen van 2016 werden Russische tweetbots gebruikt om voortdurend politieke retoriek te verspreiden onder zowel democraten als republikeinen. Je hebt een gegevensset met zulke tweets gekregen, russian_tweets. Je gaat deze tweets classificeren als links (democraat) of rechts (republikein). Voordat je een classificatiemodel kunt bouwen, moet je de tekst opschonen en voorbereiden voor modellering.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Cursus bekijken

Oefeninstructies

  • Rond het tokeniseren af door de tokens te stemmen.
  • Gebruik cast_dtm() om een document-termmatrix te maken.
  • Weeg de document-termmatrix met tf-idf-weging.
  • Print de matrix.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Stem the tokens
russian_tokens <- russian_tweets %>%
  unnest_tokens(output = "word", token = "words", input = content) %>%
  anti_join(stop_words) %>%
  ___(word = ___(word))

# Create a document term matrix using TFIDF weighting
tweet_matrix <- russian_tokens %>%
  count(tweet_id, word) %>%
  ___(document = ___, term = ___,
           value = n, weighting = tm::___)

# Print the matrix details 
___
Code bewerken en uitvoeren