Lengte van tokenreeksen opgeven met BOW
We zagen in de video dat we door verschillende lengtes van tokens op te geven — wat we n-grams noemden — de context beter kunnen vastleggen, en dat kan heel belangrijk zijn.
In deze oefening werk je met een steekproef van Amazon-productreviews. Je taak is om een BOW-vocabulaire te bouwen met de kolom review en de lengte van de tokenreeks te specificeren.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in Python
Oefeninstructies
- Bouw de vectorizer en stel de lengte van de tokenreeks in op uni- en bigrams.
- Fit de vectorizer.
- Transformeer met de gefitte vectorizer.
- Zorg in de DataFrame dat je de kolomnamen correct specificeert.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)
# Transform the review column
X_review = vect.____(reviews.review)
# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())