Bouw en beoordeel een model: productreview-data
In deze oefening bouw je een logistic regression met de gegevensset reviews, die klantreviews van Amazon-producten bevat. De array y bevat het sentiment: 1 bij positief en 0 anders. De array X bevat alle numerieke features die zijn gemaakt met een BOW-aanpak. Verken ze gerust in de IPython Shell.
Je taak is om een logistic regression-model te bouwen en de accuracy en confusion matrix te berekenen met de testgegevens.
De functies voor logistic regression en het splitsen in train/test zijn al voor je geïmporteerd.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in Python
Oefeninstructies
- Importeer de functies voor accuracy score en confusion matrix.
- Splits de data in training en testing, gebruik 30% als testset en zet de random seed op
42. - Train een logistic regression-model.
- Print de accuracy score en de confusion matrix met de testdata.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the accuracy and confusion matrix
____
# Split the data into training and testing
X_train, X_test, y_train, y_test = ____(____, ____, ____=0.3, ____=42)
# Build a logistic regression
log_reg = ____._____
# Predict the labels
y_predict = log_reg.predict(X_test)
# Print the performance metrics
print('Accuracy score of test data: ', ____(____, ____))
print('Confusion matrix of test data: \n', ____(____, ____)/len(y_test))