Omvang van de woordenschat van filmreviews
In deze oefening ga je verschillende manieren oefenen om de omvang van de woordenschat te beperken met een steekproef uit de gegevensset met movies-reviews. De eerste kolom is de review (van het type object), en de tweede kolom is het label, waarbij 0 een negatieve review is en 1 een positieve.
De drie methoden die je gebruikt, zetten de tekstkolom om naar nieuwe numerieke kolommen die tellen hoe vaak een woord of woordgroep in elke review voorkomt. Elke methode levert uiteindelijk een verschillend aantal nieuwe features op.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify size of vocabulary and fit
vect = CountVectorizer(____=____)
vect.fit(movies.review)
# Transform the review column
X_review = vect.transform(movies.review)
# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())