Aan de slagGa gratis aan de slag

Een corpus maken

Je hebt een tibble gemaakt met de naam russian_tweets met ongeveer 20.000 tweets die automatisch zijn gegenereerd door bots tijdens de Amerikaanse verkiezingscyclus van 2016, zodat je tekstanalyse kunt uitvoeren. Nadat je de beschikbare opties voor je analyse hebt bekeken, denk je dat het tm-pakket de eenvoudigste weg vooruit biedt. Om de analyse uit te voeren, moet je eerst een corpus maken en mogelijk nuttige metadata toevoegen.

Wees je ervan bewust dat dit echte data van Twitter is en dat er dus altijd een kans is dat er scheldwoorden of andere aanstootgevende inhoud in voorkomt (in deze oefening, en in eventuele volgende oefeningen die ook echte Twitter-data gebruiken).

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Cursus bekijken

Oefeninstructies

  • Maak een corpus met de kolom content van russian_tweets.
  • Voeg de kolommen following en followers toe als metadata aan tweet_corpus.
  • Print de eerste paar rijen van de metadatatabel.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Create a corpus
tweet_corpus <- ___(___(russian_tweets$___))

# Attach following and followers
___(tweet_corpus, 'following') <- russian_tweets$___
___(tweet_corpus, 'followers') <- russian_tweets$___

# Review the meta data
head(meta(___))
Code bewerken en uitvoeren