Aan de slagGa gratis aan de slag

Sentimentanalyse met GBM

Laten we nu scikit-learn's GradientBoostingClassifier gebruiken op de reviews-gegevensset om het sentiment van een review te voorspellen op basis van de tekst.

We voeren de ruwe tekst niet direct aan het model. De volgende preprocessing is alvast voor je gedaan:

  1. Reviews met ontbrekende waarden verwijderen.
  2. Gegevens van de top 5 apps selecteren.
  3. Een willekeurige subsample van 500 reviews selecteren.
  4. "Stopwoorden" uit de reviews verwijderen.
  5. De reviews omzetten naar een matrix, waarin elk kenmerk de frequentie van een woord in een review weergeeft.

Wil je dieper in text mining duiken? Bekijk dan de cursus Introduction to Natural Language Processing in Python!

Deze oefening maakt deel uit van de cursus

Ensemblemethoden in Python

Cursus bekijken

Oefeninstructies

  • Bouw een GradientBoostingClassifier met 100 estimators en een learning rate van 0.1.
  • Bereken de voorspellingen op de testset.
  • Bereken de accuracy om het model te evalueren.
  • Bereken en print de confusion matrix.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Build and fit a Gradient Boosting classifier
clf_gbm = ____(____, ____, random_state=500)
clf_gbm.fit(X_train, y_train)

# Calculate the predictions on the test set
pred = ____

# Evaluate the performance based on the accuracy
acc = ____
print('Accuracy: {:.3f}'.format(acc))

# Get and show the Confusion Matrix
cm = ____
print(cm)
Code bewerken en uitvoeren