Ein Modell erstellen und bewerten: Filmrezensionen

In dieser Aufgabe baust du ein logistisches Regressionsmodell mit dem Datensatz movies. Die Bewertung steht in der Spalte label und ist 1, wenn die Rezension positiv ist, und 0, wenn sie negativ ist. Die Textrezension wurde mithilfe von BOW in numerische Spalten umgewandelt.

Du hast bereits einen Klassifikator erstellt, ihn aber mit denselben Daten bewertet, die auch zum Trainieren verwendet wurden. Achte jetzt darauf, das Modell mit einem unbekannten Testdatensatz zu beurteilen. Wie ändert sich die Leistung des Modells, wenn es auf dem Testset evaluiert wird?

Diese Übung ist Teil des Kurses

<Kurs>Stimmungsanalyse in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Importiere die Funktion für den Train/Test-Split.
Führe den Train/Test-Split durch und gib an, dass 20 % der Daten als Testset verwendet werden sollen.
Trainiere ein Modell der logistischen Regression.
Gib die Genauigkeit des Modells auf den Trainings- und auf den Testdaten aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Import the required packages
from sklearn.linear_model import LogisticRegression
____

# Define the vector of labels and matrix of features
y = movies.label
X = movies.drop('label', axis=1)

# Perform the train-test split
X_train, X_test, y_train, y_test = ____(X, y, ____=0.2, random_state=42)

# Build a logistic regression model and print out the accuracy
log_reg = ____.____
print('Accuracy on train set: ', log_reg.____(____, ____))
print('Accuracy on test set: ', log_reg.____(____, ____))

Code bearbeiten und ausführen