Voorbeeld van classificatiemodel
Eerder heb je een set Russische tweets voorbereid voor classificatie. Van de 20.000 tweets heb je gefilterd op tweets met een account_type van Left of Right, en de eerste 2000 tweets van elk geselecteerd. Je hebt de tweets al getokenized in woorden, stopwoorden verwijderd en stemming uitgevoerd. Daarnaast heb je woordfrequenties omgezet naar een document-termmatrix met TFIDF-waarden als gewichten en deze matrix opgeslagen als: left_right_matrix_small.
Je gebruikt deze matrix om te voorspellen of een tweet is gegenereerd door een linksgeoriënteerde tweetbot of een rechtsgeoriënteerde tweetbot. De labels vind je in de vector left_right_labels.
Deze oefening maakt deel uit van de cursus
Introductie tot Natural Language Processing in R
Oefeninstructies
- Stel de random seed in op
1111voor reproduceerbaarheid. - Maak trainings- en testgegevenssets. Gebruik een steekproef van 75% voor de trainingsdata.
- Voer een random forest-model uit op de trainingsdata, gebruik
left_right_labelsvoor de responsevectory. - Print de resultaten van de random forest.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
library(randomForest)
# Create train/test split
set.___(___)
sample_size <- floor(___ * nrow(left_right_matrix_small))
train_ind <- ___(nrow(left_right_matrix_small), size = ___)
train <- left_right_matrix_small[___, ]
test <- left_right_matrix_small[-___, ]
# Create a random forest classifier
rfc <- randomForest(x = as.data.frame(as.matrix(___)),
y = ___[___],
nTree = 50)
# Print the results
___