LoslegenKostenlos loslegen

BOW mit n-Grammen und Vokabulargröße

In dieser Übung baust du noch einmal ein Bag-of-Words auf – diesmal mit dem Datensatz reviews mit Amazon-Produktrezensionen. Deine Hauptaufgabe ist es, die Größe des Vokabulars zu begrenzen und die Länge der Token-Sequenz festzulegen.

Diese Übung ist Teil des Kurses

Stimmungsanalyse in Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere den Vektorisierer aus sklearn.
  • Baue den Vektorisierer und gib dabei folgende Parameter an: Die Größe des Vokabulars soll auf 1000 begrenzt sein, es sollen nur Bigramme enthalten sein, und Begriffe, die in mehr als 500 Dokumenten vorkommen, sollen ignoriert werden.
  • Fitte den Vektorisierer auf die Spalte review.
  • Erzeuge ein DataFrame aus der BOW-Darstellung.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

#Import the vectorizer
from sklearn.____.____ import ____

# Build the vectorizer, specify max features and fit
vect = ____(____=1000, ____=(2, 2), ____=500)
vect.____(reviews.review)

# Transform the review
X_review = vect.transform(reviews.review)

# Create a DataFrame from the bow representation
X_df = pd.DataFrame(X_review.____, columns=____._____)
print(X_df.head())
Code bearbeiten und ausführen