Aan de slagGa gratis aan de slag

Lengte van tokenreeksen opgeven met BOW

We zagen in de video dat we door verschillende lengtes van tokens op te geven — wat we n-grams noemden — de context beter kunnen vastleggen, en dat kan heel belangrijk zijn.

In deze oefening werk je met een steekproef van Amazon-productreviews. Je taak is om een BOW-vocabulaire te bouwen met de kolom review en de lengte van de tokenreeks te specificeren.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in Python

Cursus bekijken

Oefeninstructies

  • Bouw de vectorizer en stel de lengte van de tokenreeks in op uni- en bigrams.
  • Fit de vectorizer.
  • Transformeer met de gefitte vectorizer.
  • Zorg in de DataFrame dat je de kolomnamen correct specificeert.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify token sequence and fit
vect = ____(____=(___,___))
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df = pd.DataFrame(X_review.toarray(), columns=vect.____)
print(X_df.head())
Code bewerken en uitvoeren