Sentimentanalyse met GBM
Laten we nu scikit-learn's GradientBoostingClassifier gebruiken op de reviews-gegevensset om het sentiment van een review te voorspellen op basis van de tekst.
We voeren de ruwe tekst niet direct aan het model. De volgende preprocessing is alvast voor je gedaan:
- Reviews met ontbrekende waarden verwijderen.
- Gegevens van de top 5 apps selecteren.
- Een willekeurige subsample van 500 reviews selecteren.
- "Stopwoorden" uit de reviews verwijderen.
- De reviews omzetten naar een matrix, waarin elk kenmerk de frequentie van een woord in een review weergeeft.
Wil je dieper in text mining duiken? Bekijk dan de cursus Introduction to Natural Language Processing in Python!
Deze oefening maakt deel uit van de cursus
Ensemblemethoden in Python
Oefeninstructies
- Bouw een
GradientBoostingClassifiermet100estimators en een learning rate van0.1. - Bereken de voorspellingen op de testset.
- Bereken de accuracy om het model te evalueren.
- Bereken en print de confusion matrix.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Build and fit a Gradient Boosting classifier
clf_gbm = ____(____, ____, random_state=500)
clf_gbm.fit(X_train, y_train)
# Calculate the predictions on the test set
pred = ____
# Evaluate the performance based on the accuracy
acc = ____
print('Accuracy: {:.3f}'.format(acc))
# Get and show the Confusion Matrix
cm = ____
print(cm)