Token-Sequenzlänge mit BOW festlegen
Im Video hast du gesehen: Wenn wir unterschiedliche Tokenlängen – sogenannte n-Gramme – angeben, erfassen wir den Kontext besser, was sehr wichtig sein kann.
In dieser Übung arbeitest du mit einer Stichprobe von Amazon-Produktbewertungen. Deine Aufgabe ist es, ein BOW-Vokabular mit der Spalte review zu erstellen und die Sequenzlänge der Tokens festzulegen.
Diese Übung ist Teil des Kurses
Stimmungsanalyse in Python
Anleitung zur Übung
- Erstelle den Vektorisierer und gib als Token-Sequenzlänge Uni- und Bigrams an.
- Fitte den Vektorisierer.
- Transformiere mit dem gefitteten Vektorisierer.
- Achte im DataFrame darauf, die Spaltennamen korrekt anzugeben.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)
# Transform the review column
X_review = vect.____(reviews.review)
# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())