Voorbeeld van classificatiemodel

Eerder heb je een set Russische tweets voorbereid voor classificatie. Van de 20.000 tweets heb je gefilterd op tweets met een account_type van Left of Right, en de eerste 2000 tweets van elk geselecteerd. Je hebt de tweets al getokenized in woorden, stopwoorden verwijderd en stemming uitgevoerd. Daarnaast heb je woordfrequenties omgezet naar een document-termmatrix met TFIDF-waarden als gewichten en deze matrix opgeslagen als: left_right_matrix_small.

Je gebruikt deze matrix om te voorspellen of een tweet is gegenereerd door een linksgeoriënteerde tweetbot of een rechtsgeoriënteerde tweetbot. De labels vind je in de vector left_right_labels.

Deze oefening maakt deel uit van de cursus

Introductie tot Natural Language Processing in R

Bekijk cursus

Oefeninstructies

Stel de random seed in op 1111 voor reproduceerbaarheid.
Maak trainings- en testgegevenssets. Gebruik een steekproef van 75% voor de trainingsdata.
Voer een random forest-model uit op de trainingsdata, gebruik left_right_labels voor de responsevector y.
Print de resultaten van de random forest.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

library(randomForest)

# Create train/test split
set.___(___)
sample_size <- floor(___ * nrow(left_right_matrix_small))
train_ind <- ___(nrow(left_right_matrix_small), size = ___)
train <- left_right_matrix_small[___, ]
test <- left_right_matrix_small[-___, ]

# Create a random forest classifier
rfc <- randomForest(x = as.data.frame(as.matrix(___)), 
                    y = ___[___],
                    nTree = 50)
# Print the results
___

Code bewerken en uitvoeren

Introductie tot Natural Language Processing in R

SkillTag.level.intermediateSkillTag.label

4.8+

40 reviews

In hoofdstuk 4 behandelen we twee klassiekers binnen natural language processing: sentimentanalyse en word embeddings. Dit zijn twee analysetechnieken die onmisbaar zijn voor iedereen die de basis van tekstanalyse wil beheersen. Daarnaast maak je kort kennis met BERT, part-of-speech tagging en named entity recognition. In deze cursus kwamen bijna 15 verschillende analysetechnieken voorbij, dus hoofdstuk 4 sluit af met een overzicht van alle mooie technieken die je in deze cursus leert.

Exercise 1: Sentimentanalyse Exercise 2: tidytext-lexicons Exercise 3: Sentimentscores Exercise 4: Sentiment en emotie Exercise 5: Woordembeddings Exercise 6: oefenen met h2o Exercise 7: word2vec Exercise 8: Aanvullende NLP-analyses Exercise 9: Methoden herzien #1 Exercise 10: Methoden herhalen #2 Exercise 11: Conclusie