Größe des Vokabulars von Filmrezensionen
In dieser Übung übst du verschiedene Möglichkeiten, die Größe des Vokabulars zu begrenzen, anhand einer Stichprobe aus dem Datensatz mit movies-Rezensionen. Die erste Spalte ist review vom Typ object, die zweite Spalte ist label, wobei 0 für eine negative Rezension und 1 für eine positive steht.
Die drei Methoden, die du verwendest, wandeln die Textspalte in neue numerische Spalten um und erfassen die Häufigkeit eines Wortes oder einer Phrase in jeder Rezension. Jede Methode führt letztlich dazu, dass eine unterschiedliche Anzahl neuer Features erzeugt wird.
Diese Übung ist Teil des Kurses
Stimmungsanalyse in Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify size of vocabulary and fit
vect = CountVectorizer(____=____)
vect.fit(movies.review)
# Transform the review column
X_review = vect.transform(movies.review)
# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())