Een corpus maken

Je hebt een tibble gemaakt met de naam russian_tweets met ongeveer 20.000 tweets die automatisch zijn gegenereerd door bots tijdens de Amerikaanse verkiezingscyclus van 2016, zodat je tekstanalyse kunt uitvoeren. Nadat je de beschikbare opties voor je analyse hebt bekeken, denk je dat het tm-pakket de eenvoudigste weg vooruit biedt. Om de analyse uit te voeren, moet je eerst een corpus maken en mogelijk nuttige metadata toevoegen.

Wees je ervan bewust dat dit echte data van Twitter is en dat er dus altijd een kans is dat er scheldwoorden of andere aanstootgevende inhoud in voorkomt (in deze oefening, en in eventuele volgende oefeningen die ook echte Twitter-data gebruiken).

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Bekijk cursus

Oefeninstructies

Maak een corpus met de kolom content van russian_tweets.
Voeg de kolommen following en followers toe als metadata aan tweet_corpus.
Print de eerste paar rijen van de metadatatabel.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Create a corpus
tweet_corpus <- ___(___(russian_tweets$___))

# Attach following and followers
___(tweet_corpus, 'following') <- russian_tweets$___
___(tweet_corpus, 'followers') <- russian_tweets$___

# Review the meta data
head(meta(___))

Code bewerken en uitvoeren

Introductie tot Natural Language Processing in R

SkillTag.level.intermediateSkillTag.label

4.8+

40 reviews

In hoofdstuk 4 behandelen we twee klassiekers binnen natural language processing: sentimentanalyse en word embeddings. Dit zijn twee analysetechnieken die onmisbaar zijn voor iedereen die de basis van tekstanalyse wil beheersen. Daarnaast maak je kort kennis met BERT, part-of-speech tagging en named entity recognition. In deze cursus kwamen bijna 15 verschillende analysetechnieken voorbij, dus hoofdstuk 4 sluit af met een overzicht van alle mooie technieken die je in deze cursus leert.

Exercise 1: Sentimentanalyse Exercise 2: tidytext-lexicons Exercise 3: Sentimentscores Exercise 4: Sentiment en emotie Exercise 5: Woordembeddings Exercise 6: oefenen met h2o Exercise 7: word2vec Exercise 8: Aanvullende NLP-analyses Exercise 9: Methoden herzien #1 Exercise 10: Methoden herhalen #2 Exercise 11: Conclusie