Productreviews met regularisatie

In deze oefening werk je opnieuw met de gegevensset reviews met Amazon-productreviews. Een vector met labels y bevat het sentiment: 1 als positief en 0 anders. De matrix X bevat alle numerieke features die zijn gemaakt met een BOW-aanpak.

Je traint twee logistic regression-modellen met verschillende niveaus van regularisatie en vergelijkt hoe ze presteren op de testgegevens. Onthoud dat regularisatie een manier is om de complexiteit van het model te sturen. Hoe sterker een model geregulariseerd is, hoe minder flexibel het is, maar hoe beter het kan generaliseren. Modellen met een hoger niveau van regularisatie zijn vaak minder nauwkeurig dan niet-geregulariseerde modellen.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in Python

Bekijk cursus

Oefeninstructies

Splits de data in train- en testsets.
Train een logistic regression met regularisatieparameter 1000. Train een tweede logistic regression met regularisatieparameter 0.001.
Print de accuracy-scores van beide modellen op de testset.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Split data into training and testing
____, ____, ____, ____ = train_test_split(____, ____, test_size=0.2, random_state=123)

# Train a logistic regression with regularization of 1000
log_reg1 = ____(____=1000).fit(X_train, y_train)
# Train a logistic regression with regularization of 0.001
log_reg2 = ____(____=0.001).fit(X_train, y_train)

# Print the accuracies
print('Accuracy of model 1: ', log_reg1.____(____, ____))
print('Accuracy of model 2: ', log_reg2.____(____, ____))

Code bewerken en uitvoeren