Produktbewertungen mit Regularisierung

In dieser Übung arbeitest du erneut mit dem Datensatz reviews mit Amazon-Produktbewertungen. Ein Vektor mit Labels y enthält das Sentiment: 1 bei positiv, sonst 0. Die Matrix X enthält alle numerischen Merkmale, die mit einem BOW-Ansatz erstellt wurden.

Du sollst zwei Logit-Modelle (logistische Regression) mit unterschiedlichem Regularisierungsgrad trainieren und ihre Leistung auf den Testdaten vergleichen. Denk daran: Regularisierung steuert die Komplexität des Modells. Je stärker ein Modell regularisiert ist, desto weniger flexibel ist es, aber desto besser kann es generalisieren. Modelle mit höherer Regularisierung sind häufig weniger genau als nicht regularisierte.

Diese Übung ist Teil des Kurses

<Kurs>Stimmungsanalyse in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Teile die Daten in Trainings- und Testmenge auf.
Trainiere eine logistische Regression mit Regularisierungsparameter 1000. Trainiere eine zweite logistische Regression mit Regularisierungsparameter 0.001.
Gib die Accuracy beider Modelle auf dem Test-Set aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Split data into training and testing
____, ____, ____, ____ = train_test_split(____, ____, test_size=0.2, random_state=123)

# Train a logistic regression with regularization of 1000
log_reg1 = ____(____=1000).fit(X_train, y_train)
# Train a logistic regression with regularization of 0.001
log_reg2 = ____(____=0.001).fit(X_train, y_train)

# Print the accuracies
print('Accuracy of model 1: ', log_reg1.____(____, ____))
print('Accuracy of model 2: ', log_reg2.____(____, ____))

Code bearbeiten und ausführen