Productreviews met regularisatie
In deze oefening werk je opnieuw met de gegevensset reviews met Amazon-productreviews. Een vector met labels y bevat het sentiment: 1 als positief en 0 anders. De matrix X bevat alle numerieke features die zijn gemaakt met een BOW-aanpak.
Je traint twee logistic regression-modellen met verschillende niveaus van regularisatie en vergelijkt hoe ze presteren op de testgegevens. Onthoud dat regularisatie een manier is om de complexiteit van het model te sturen. Hoe sterker een model geregulariseerd is, hoe minder flexibel het is, maar hoe beter het kan generaliseren. Modellen met een hoger niveau van regularisatie zijn vaak minder nauwkeurig dan niet-geregulariseerde modellen.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in Python
Oefeninstructies
- Splits de data in train- en testsets.
- Train een logistic regression met regularisatieparameter
1000. Train een tweede logistic regression met regularisatieparameter0.001. - Print de accuracy-scores van beide modellen op de testset.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Split data into training and testing
____, ____, ____, ____ = train_test_split(____, ____, test_size=0.2, random_state=123)
# Train a logistic regression with regularization of 1000
log_reg1 = ____(____=1000).fit(X_train, y_train)
# Train a logistic regression with regularization of 0.001
log_reg2 = ____(____=0.001).fit(X_train, y_train)
# Print the accuracies
print('Accuracy of model 1: ', log_reg1.____(____, ____))
print('Accuracy of model 2: ', log_reg2.____(____, ____))