Omvang van de woordenschat van filmreviews

In deze oefening ga je verschillende manieren oefenen om de omvang van de woordenschat te beperken met een steekproef uit de gegevensset met movies-reviews. De eerste kolom is de review (van het type object), en de tweede kolom is het label, waarbij 0 een negatieve review is en 1 een positieve.

De drie methoden die je gebruikt, zetten de tekstkolom om naar nieuwe numerieke kolommen die tellen hoe vaak een woord of woordgroep in elke review voorkomt. Elke methode levert uiteindelijk een verschillend aantal nieuwe features op.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify size of vocabulary and fit
vect = CountVectorizer(____=____)
vect.fit(movies.review)

# Transform the review column
X_review = vect.transform(movies.review)
# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.get_feature_names())
print(X_df.head())

Code bewerken en uitvoeren