Produktbewertungen mit Regularisierung
In dieser Übung arbeitest du erneut mit dem Datensatz reviews mit Amazon-Produktbewertungen. Ein Vektor mit Labels y enthält das Sentiment: 1 bei positiv, sonst 0. Die Matrix X enthält alle numerischen Merkmale, die mit einem BOW-Ansatz erstellt wurden.
Du sollst zwei Logit-Modelle (logistische Regression) mit unterschiedlichem Regularisierungsgrad trainieren und ihre Leistung auf den Testdaten vergleichen. Denk daran: Regularisierung steuert die Komplexität des Modells. Je stärker ein Modell regularisiert ist, desto weniger flexibel ist es, aber desto besser kann es generalisieren. Modelle mit höherer Regularisierung sind häufig weniger genau als nicht regularisierte.
Diese Übung ist Teil des Kurses
Stimmungsanalyse in Python
Anleitung zur Übung
- Teile die Daten in Trainings- und Testmenge auf.
- Trainiere eine logistische Regression mit Regularisierungsparameter
1000. Trainiere eine zweite logistische Regression mit Regularisierungsparameter0.001. - Gib die Accuracy beider Modelle auf dem Test-Set aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Split data into training and testing
____, ____, ____, ____ = train_test_split(____, ____, test_size=0.2, random_state=123)
# Train a logistic regression with regularization of 1000
log_reg1 = ____(____=1000).fit(X_train, y_train)
# Train a logistic regression with regularization of 0.001
log_reg2 = ____(____=0.001).fit(X_train, y_train)
# Print the accuracies
print('Accuracy of model 1: ', log_reg1.____(____, ____))
print('Accuracy of model 2: ', log_reg2.____(____, ____))