LoslegenKostenlos loslegen

Beispiel für Klassifikationsmodellierung

Du hast zuvor einen Satz russischer Tweets für die Klassifikation vorbereitet. Von den 20.000 Tweets hast du auf Tweets mit einem account_type von Left oder Right gefiltert und jeweils die ersten 2000 Tweets ausgewählt. Du hast die Tweets bereits in Wörter tokenisiert, Stoppwörter entfernt und Stemming durchgeführt. Außerdem hast du Wortzählungen in eine Dokument-Term-Matrix mit TFIDF-Werten als Gewichte umgewandelt und diese Matrix als left_right_matrix_small gespeichert.

Diese Matrix verwendest du, um vorherzusagen, ob ein Tweet von einem linksgerichteten Tweet-Bot oder einem rechtsgerichteten Tweet-Bot generiert wurde. Die Labels findest du im Vektor left_right_labels.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit R

Kurs anzeigen

Anleitung zur Übung

  • Setze den Zufallssamen für die Reproduzierbarkeit auf 1111.
  • Erstelle Trainings- und Testdatensätze. Verwende eine 75%‑Stichprobe für die Trainingsdaten.
  • Führe ein Random-Forest-Modell auf den Trainingsdaten aus und verwende left_right_labels als Antwortvektor y.
  • Gib die Ergebnisse des Random Forest aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

library(randomForest)

# Create train/test split
set.___(___)
sample_size <- floor(___ * nrow(left_right_matrix_small))
train_ind <- ___(nrow(left_right_matrix_small), size = ___)
train <- left_right_matrix_small[___, ]
test <- left_right_matrix_small[-___, ]

# Create a random forest classifier
rfc <- randomForest(x = as.data.frame(as.matrix(___)), 
                    y = ___[___],
                    nTree = 50)
# Print the results
___
Code bearbeiten und ausführen