Een corpus maken
Je hebt een tibble gemaakt met de naam russian_tweets met ongeveer 20.000 tweets die automatisch zijn gegenereerd door bots tijdens de Amerikaanse verkiezingscyclus van 2016, zodat je tekstanalyse kunt uitvoeren. Nadat je de beschikbare opties voor je analyse hebt bekeken, denk je dat het tm-pakket de eenvoudigste weg vooruit biedt. Om de analyse uit te voeren, moet je eerst een corpus maken en mogelijk nuttige metadata toevoegen.
Wees je ervan bewust dat dit echte data van Twitter is en dat er dus altijd een kans is dat er scheldwoorden of andere aanstootgevende inhoud in voorkomt (in deze oefening, en in eventuele volgende oefeningen die ook echte Twitter-data gebruiken).
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in R
Oefeninstructies
- Maak een corpus met de kolom
contentvanrussian_tweets. - Voeg de kolommen
followingenfollowerstoe als metadata aantweet_corpus. - Print de eerste paar rijen van de metadatatabel.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Create a corpus
tweet_corpus <- ___(___(russian_tweets$___))
# Attach following and followers
___(tweet_corpus, 'following') <- russian_tweets$___
___(tweet_corpus, 'followers') <- russian_tweets$___
# Review the meta data
head(meta(___))