Beispiel für Klassifikationsmodellierung
Du hast zuvor einen Satz russischer Tweets für die Klassifikation vorbereitet. Von den 20.000 Tweets hast du auf Tweets mit einem account_type von Left oder Right gefiltert und jeweils die ersten 2000 Tweets ausgewählt. Du hast die Tweets bereits in Wörter tokenisiert, Stoppwörter entfernt und Stemming durchgeführt. Außerdem hast du Wortzählungen in eine Dokument-Term-Matrix mit TFIDF-Werten als Gewichte umgewandelt und diese Matrix als left_right_matrix_small gespeichert.
Diese Matrix verwendest du, um vorherzusagen, ob ein Tweet von einem linksgerichteten Tweet-Bot oder einem rechtsgerichteten Tweet-Bot generiert wurde. Die Labels findest du im Vektor left_right_labels.
Diese Übung ist Teil des Kurses
Einführung in Natural Language Processing mit R
Anleitung zur Übung
- Setze den Zufallssamen für die Reproduzierbarkeit auf
1111. - Erstelle Trainings- und Testdatensätze. Verwende eine 75%‑Stichprobe für die Trainingsdaten.
- Führe ein Random-Forest-Modell auf den Trainingsdaten aus und verwende
left_right_labelsals Antwortvektory. - Gib die Ergebnisse des Random Forest aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
library(randomForest)
# Create train/test split
set.___(___)
sample_size <- floor(___ * nrow(left_right_matrix_small))
train_ind <- ___(nrow(left_right_matrix_small), size = ___)
train <- left_right_matrix_small[___, ]
test <- left_right_matrix_small[-___, ]
# Create a random forest classifier
rfc <- randomForest(x = as.data.frame(as.matrix(___)),
y = ___[___],
nTree = 50)
# Print the results
___