Token-Sequenzlänge mit BOW festlegen

Im Video hast du gesehen: Wenn wir unterschiedliche Tokenlängen – sogenannte n-Gramme – angeben, erfassen wir den Kontext besser, was sehr wichtig sein kann.

In dieser Übung arbeitest du mit einer Stichprobe von Amazon-Produktbewertungen. Deine Aufgabe ist es, ein BOW-Vokabular mit der Spalte review zu erstellen und die Sequenzlänge der Tokens festzulegen.

Diese Übung ist Teil des Kurses

Stimmungsanalyse in Python

Kurs anzeigen

Anleitung zur Übung

Erstelle den Vektorisierer und gib als Token-Sequenzlänge Uni- und Bigrams an.
Fitte den Vektorisierer.
Transformiere mit dem gefitteten Vektorisierer.
Achte im DataFrame darauf, die Spaltennamen korrekt anzugeben.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())

Code bearbeiten und ausführen