Aan de slagGa gratis aan de slag

Bouw en beoordeel een model: productreview-data

In deze oefening bouw je een logistic regression met de gegevensset reviews, die klantreviews van Amazon-producten bevat. De array y bevat het sentiment: 1 bij positief en 0 anders. De array X bevat alle numerieke features die zijn gemaakt met een BOW-aanpak. Verken ze gerust in de IPython Shell.

Je taak is om een logistic regression-model te bouwen en de accuracy en confusion matrix te berekenen met de testgegevens.

De functies voor logistic regression en het splitsen in train/test zijn al voor je geïmporteerd.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in Python

Cursus bekijken

Oefeninstructies

  • Importeer de functies voor accuracy score en confusion matrix.
  • Splits de data in training en testing, gebruik 30% als testset en zet de random seed op 42.
  • Train een logistic regression-model.
  • Print de accuracy score en de confusion matrix met de testdata.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Import the accuracy and confusion matrix
____

# Split the data into training and testing
X_train, X_test, y_train, y_test = ____(____, ____, ____=0.3, ____=42)

# Build a logistic regression
log_reg = ____._____

# Predict the labels 
y_predict = log_reg.predict(X_test)

# Print the performance metrics
print('Accuracy score of test data: ', ____(____, ____))
print('Confusion matrix of test data: \n', ____(____, ____)/len(y_test))
Code bewerken en uitvoeren