Sentimentanalyse mit GBM
Verwenden wir jetzt den GradientBoostingClassifier aus scikit-learn auf dem reviews-Datensatz, um das Sentiment einer Rezension anhand ihres Textes vorherzusagen.
Wir geben dem Modell nicht den Rohtext als Eingabe. Folgende Vorverarbeitung wurde für dich durchgeführt:
- Entfernen von Rezensionen mit fehlenden Werten.
- Auswahl von Daten der Top 5 Apps.
- Auswahl einer zufälligen Teilstichprobe von 500 Rezensionen.
- Entfernen von „Stopwörtern“ aus den Rezensionen.
- Umwandeln der Rezensionen in eine Matrix, in der jedes Feature die Häufigkeit eines Wortes in einer Rezension darstellt.
Du willst tiefer in Text Mining einsteigen? Dann schau dir den Kurs Introduction to Natural Language Processing in Python an!
Diese Übung ist Teil des Kurses
Ensemble-Methoden in Python
Anleitung zur Übung
- Erstelle einen
GradientBoostingClassifiermit100Bäumen (Estimators) und einer Lernrate von0.1. - Berechne die Vorhersagen auf dem Testset.
- Ermittle die Genauigkeit, um das Modell zu bewerten.
- Berechne und gib die Konfusionsmatrix aus.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Build and fit a Gradient Boosting classifier
clf_gbm = ____(____, ____, random_state=500)
clf_gbm.fit(X_train, y_train)
# Calculate the predictions on the test set
pred = ____
# Evaluate the performance based on the accuracy
acc = ____
print('Accuracy: {:.3f}'.format(acc))
# Get and show the Confusion Matrix
cm = ____
print(cm)