LoslegenKostenlos loslegen

Token-Sequenzlänge mit BOW festlegen

Im Video hast du gesehen: Wenn wir unterschiedliche Tokenlängen – sogenannte n-Gramme – angeben, erfassen wir den Kontext besser, was sehr wichtig sein kann.

In dieser Übung arbeitest du mit einer Stichprobe von Amazon-Produktbewertungen. Deine Aufgabe ist es, ein BOW-Vokabular mit der Spalte review zu erstellen und die Sequenzlänge der Tokens festzulegen.

Diese Übung ist Teil des Kurses

Stimmungsanalyse in Python

Kurs anzeigen

Anleitung zur Übung

  • Erstelle den Vektorisierer und gib als Token-Sequenzlänge Uni- und Bigrams an.
  • Fitte den Vektorisierer.
  • Transformiere mit dem gefitteten Vektorisierer.
  • Achte im DataFrame darauf, die Spaltennamen korrekt anzugeben.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())
Code bearbeiten und ausführen