Lengte van tokenreeksen opgeven met BOW

We zagen in de video dat we door verschillende lengtes van tokens op te geven — wat we n-grams noemden — de context beter kunnen vastleggen, en dat kan heel belangrijk zijn.

In deze oefening werk je met een steekproef van Amazon-productreviews. Je taak is om een BOW-vocabulaire te bouwen met de kolom review en de lengte van de tokenreeks te specificeren.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in Python

Bekijk cursus

Oefeninstructies

Bouw de vectorizer en stel de lengte van de tokenreeks in op uni- en bigrams.
Fit de vectorizer.
Transformeer met de gefitte vectorizer.
Zorg in de DataFrame dat je de kolomnamen correct specificeert.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())

Code bewerken en uitvoeren