Ein Modell erstellen und bewerten: Filmrezensionen
In dieser Aufgabe baust du ein logistisches Regressionsmodell mit dem Datensatz movies. Die Bewertung steht in der Spalte label und ist 1, wenn die Rezension positiv ist, und 0, wenn sie negativ ist. Die Textrezension wurde mithilfe von BOW in numerische Spalten umgewandelt.
Du hast bereits einen Klassifikator erstellt, ihn aber mit denselben Daten bewertet, die auch zum Trainieren verwendet wurden. Achte jetzt darauf, das Modell mit einem unbekannten Testdatensatz zu beurteilen. Wie ändert sich die Leistung des Modells, wenn es auf dem Testset evaluiert wird?
Diese Übung ist Teil des Kurses
Stimmungsanalyse in Python
Anleitung zur Übung
- Importiere die Funktion für den Train/Test-Split.
- Führe den Train/Test-Split durch und gib an, dass 20 % der Daten als Testset verwendet werden sollen.
- Trainiere ein Modell der logistischen Regression.
- Gib die Genauigkeit des Modells auf den Trainings- und auf den Testdaten aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Import the required packages
from sklearn.linear_model import LogisticRegression
____
# Define the vector of labels and matrix of features
y = movies.label
X = movies.drop('label', axis=1)
# Perform the train-test split
X_train, X_test, y_train, y_test = ____(X, y, ____=0.2, random_state=42)
# Build a logistic regression model and print out the accuracy
log_reg = ____.____
print('Accuracy on train set: ', log_reg.____(____, ____))
print('Accuracy on test set: ', log_reg.____(____, ____))