Größe des Vokabulars von Filmrezensionen
In dieser Übung übst du verschiedene Möglichkeiten, die Größe des Vokabulars zu begrenzen, anhand einer Stichprobe aus dem Datensatz mit movies-Rezensionen. Die erste Spalte ist review vom Typ object, die zweite Spalte ist label, wobei 0 für eine negative Rezension und 1 für eine positive steht.
Die drei Methoden, die du verwendest, wandeln die Textspalte in neue numerische Spalten um und erfassen die Häufigkeit eines Wortes oder einer Phrase in jeder Rezension. Jede Methode führt letztlich dazu, dass eine unterschiedliche Anzahl neuer Features erzeugt wird.
Diese Übung ist Teil des Kurses
<Kurs>Stimmungsanalyse in Python</Kurs>Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify size of vocabulary and fit
vect = CountVectorizer(____=____)
vect.fit(movies.review)
# Transform the review column
X_review = vect.transform(movies.review)
# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())