Bouw en beoordeel een model: filmrecensies

In deze oefening bouw je een logistic regression-model met de movies-gegevensset. De score staat in de kolom label en is 1 bij een positieve recensie en 0 bij een negatieve. De tekstrecensie is met BOW omgezet naar numerieke kolommen.

Je hebt al een classifier gebouwd, maar die geëvalueerd op dezelfde data die je voor de training gebruikte. Zorg er nu voor dat je het model beoordeelt met een onzichtbare testgegevensset. Hoe verandert de prestatie van het model wanneer je het op de testset evalueert?

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in Python

Bekijk cursus

Oefeninstructies

Importeer de functie die nodig is voor een train/test-split.
Voer de train/test-split uit en geef aan dat 20% van de data als testset moet worden gebruikt.
Train een logistic regression-model.
Print de nauwkeurigheid van het model voor zowel de training- als de testdata.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the required packages
from sklearn.linear_model import LogisticRegression
____

# Define the vector of labels and matrix of features
y = movies.label
X = movies.drop('label', axis=1)

# Perform the train-test split
X_train, X_test, y_train, y_test = ____(X, y, ____=0.2, random_state=42)

# Build a logistic regression model and print out the accuracy
log_reg = ____.____
print('Accuracy on train set: ', log_reg.____(____, ____))
print('Accuracy on test set: ', log_reg.____(____, ____))

Code bewerken en uitvoeren