Sentimentanalyse mit GBM

Verwenden wir jetzt den GradientBoostingClassifier aus scikit-learn auf dem reviews-Datensatz, um das Sentiment einer Rezension anhand ihres Textes vorherzusagen.

Wir geben dem Modell nicht den Rohtext als Eingabe. Folgende Vorverarbeitung wurde für dich durchgeführt:

Entfernen von Rezensionen mit fehlenden Werten.
Auswahl von Daten der Top 5 Apps.
Auswahl einer zufälligen Teilstichprobe von 500 Rezensionen.
Entfernen von „Stopwörtern“ aus den Rezensionen.
Umwandeln der Rezensionen in eine Matrix, in der jedes Feature die Häufigkeit eines Wortes in einer Rezension darstellt.

Du willst tiefer in Text Mining einsteigen? Dann schau dir den Kurs Introduction to Natural Language Processing in Python an!

Diese Übung ist Teil des Kurses

<Kurs>Ensemble-Methoden in Python</Kurs>

Kurs ansehen

Übungsanweisungen

Erstelle einen GradientBoostingClassifier mit 100 Bäumen (Estimators) und einer Lernrate von 0.1.
Berechne die Vorhersagen auf dem Testset.
Ermittle die Genauigkeit, um das Modell zu bewerten.
Berechne und gib die Konfusionsmatrix aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

# Build and fit a Gradient Boosting classifier
clf_gbm = ____(____, ____, random_state=500)
clf_gbm.fit(X_train, y_train)

# Calculate the predictions on the test set
pred = ____

# Evaluate the performance based on the accuracy
acc = ____
print('Accuracy: {:.3f}'.format(acc))

# Get and show the Confusion Matrix
cm = ____
print(cm)

Code bearbeiten und ausführen