BOW mit n-Grammen und Vokabulargröße
In dieser Übung baust du noch einmal ein Bag-of-Words auf – diesmal mit dem Datensatz reviews mit Amazon-Produktrezensionen. Deine Hauptaufgabe ist es, die Größe des Vokabulars zu begrenzen und die Länge der Token-Sequenz festzulegen.
Diese Übung ist Teil des Kurses
Stimmungsanalyse in Python
Anleitung zur Übung
- Importiere den Vektorisierer aus
sklearn. - Baue den Vektorisierer und gib dabei folgende Parameter an: Die Größe des Vokabulars soll auf 1000 begrenzt sein, es sollen nur Bigramme enthalten sein, und Begriffe, die in mehr als 500 Dokumenten vorkommen, sollen ignoriert werden.
- Fitte den Vektorisierer auf die Spalte
review. - Erzeuge ein DataFrame aus der BOW-Darstellung.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
#Import the vectorizer
from sklearn.____.____ import ____
# Build the vectorizer, specify max features and fit
vect = ____(____=1000, ____=(2, 2), ____=500)
vect.____(reviews.review)
# Transform the review
X_review = vect.transform(reviews.review)
# Create a DataFrame from the bow representation
X_df = pd.DataFrame(X_review.____, columns=____._____)
print(X_df.head())