LoslegenKostenlos loslegen

Sentimentanalyse mit GBM

Verwenden wir jetzt den GradientBoostingClassifier aus scikit-learn auf dem reviews-Datensatz, um das Sentiment einer Rezension anhand ihres Textes vorherzusagen.

Wir geben dem Modell nicht den Rohtext als Eingabe. Folgende Vorverarbeitung wurde für dich durchgeführt:

  1. Entfernen von Rezensionen mit fehlenden Werten.
  2. Auswahl von Daten der Top 5 Apps.
  3. Auswahl einer zufälligen Teilstichprobe von 500 Rezensionen.
  4. Entfernen von „Stopwörtern“ aus den Rezensionen.
  5. Umwandeln der Rezensionen in eine Matrix, in der jedes Feature die Häufigkeit eines Wortes in einer Rezension darstellt.

Du willst tiefer in Text Mining einsteigen? Dann schau dir den Kurs Introduction to Natural Language Processing in Python an!

Diese Übung ist Teil des Kurses

Ensemble-Methoden in Python

Kurs anzeigen

Anleitung zur Übung

  • Erstelle einen GradientBoostingClassifier mit 100 Bäumen (Estimators) und einer Lernrate von 0.1.
  • Berechne die Vorhersagen auf dem Testset.
  • Ermittle die Genauigkeit, um das Modell zu bewerten.
  • Berechne und gib die Konfusionsmatrix aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Build and fit a Gradient Boosting classifier
clf_gbm = ____(____, ____, random_state=500)
clf_gbm.fit(X_train, y_train)

# Calculate the predictions on the test set
pred = ____

# Evaluate the performance based on the accuracy
acc = ____
print('Accuracy: {:.3f}'.format(acc))

# Get and show the Confusion Matrix
cm = ____
print(cm)
Code bearbeiten und ausführen