Sentimentanalyse mit GBM
Verwenden wir jetzt den GradientBoostingClassifier aus scikit-learn auf dem reviews-Datensatz, um das Sentiment einer Rezension anhand ihres Textes vorherzusagen.
Wir geben dem Modell nicht den Rohtext als Eingabe. Folgende Vorverarbeitung wurde für dich durchgeführt:
- Entfernen von Rezensionen mit fehlenden Werten.
- Auswahl von Daten der Top 5 Apps.
- Auswahl einer zufälligen Teilstichprobe von 500 Rezensionen.
- Entfernen von „Stopwörtern“ aus den Rezensionen.
- Umwandeln der Rezensionen in eine Matrix, in der jedes Feature die Häufigkeit eines Wortes in einer Rezension darstellt.
Du willst tiefer in Text Mining einsteigen? Dann schau dir den Kurs Introduction to Natural Language Processing in Python an!
Diese Übung ist Teil des Kurses
<Kurs>Ensemble-Methoden in Python</Kurs>Übungsanweisungen
- Erstelle einen
GradientBoostingClassifiermit100Bäumen (Estimators) und einer Lernrate von0.1. - Berechne die Vorhersagen auf dem Testset.
- Ermittle die Genauigkeit, um das Modell zu bewerten.
- Berechne und gib die Konfusionsmatrix aus.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
# Build and fit a Gradient Boosting classifier
clf_gbm = ____(____, ____, random_state=500)
clf_gbm.fit(X_train, y_train)
# Calculate the predictions on the test set
pred = ____
# Evaluate the performance based on the accuracy
acc = ____
print('Accuracy: {:.3f}'.format(acc))
# Get and show the Confusion Matrix
cm = ____
print(cm)