Schritt 3: Einen Klassifikator bauen
Das ist der letzte Schritt in der Sentiment-Analyse. Wir haben unseren Datensatz hinsichtlich der Stimmung untersucht und angereichert und daraus numerische Vektoren erstellt.
Du verwendest den Datensatz, den du in den vorherigen Schritten gebaut hast. Er enthält ein Merkmal für die Länge der Reviews und 200 Merkmale, die mit dem Tfidf-Vektorisierer erstellt wurden.
Deine Aufgabe ist es, eine logistische Regression zu trainieren, um das Sentiment vorherzusagen. Die Daten wurden bereits importiert und heißen reviews_transformed. Das Target heißt score und ist binär: 1, wenn die Produktbewertung positiv ist, und 0 sonst.
Trainiere ein logistische(s) Regressionsmodell und bewerte seine Leistung auf den Testdaten. Wie gut schneidet das Modell ab?
Alle benötigten Pakete wurden bereits importiert.
Diese Übung ist Teil des Kurses
Stimmungsanalyse in Python
Anleitung zur Übung
- Führe den Train/Test-Split aus, wobei 20 % der Daten für das Testen reserviert werden, und setze den Zufalls-Seed auf
456. - Trainiere ein Modell der logistischen Regression.
- Sage die Klasse voraus.
- Gib die Accuracy und die Confusion-Matrix auf dem Testset aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Define X and y
y = reviews_transformed.score
X = reviews_transformed.drop('score', axis=1)
# Train/test split
X_train, X_test, y_train, y_test = ____(____, ____, ____=0.2, ____=456)
# Train a logistic regression
log_reg = ____.____(____, ____)
# Predict the labels
y_predicted = log_reg.____(____)
# Print accuracy score and confusion matrix on test set
print('Accuracy on the test set: ', ____(____, ____))
print(____(____, ____)/len(y_test))