BOW met n-grams en woordenschatgrootte

In deze oefening ga je opnieuw een bag-of-words bouwen met de reviews-gegevensset met Amazon-productreviews. Je belangrijkste taak is om de omvang van de woordenschat te beperken en de lengte van de tokenreeks te specificeren.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in Python

Cursus bekijken

Oefeninstructies

Importeer de vectorizer uit sklearn.
Bouw de vectorizer en specificeer de volgende parameters: de woordenschatgrootte moet worden beperkt tot 1000, neem alleen bigrams op en negeer termen die in meer dan 500 documenten voorkomen.
Fit de vectorizer op de kolom review.
Maak een DataFrame op basis van de BOW-representatie.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

#Import the vectorizer
from sklearn.____.____ import ____

# Build the vectorizer, specify max features and fit
vect = ____(____=1000, ____=(2, 2), ____=500)
vect.____(reviews.review)

# Transform the review
X_review = vect.transform(reviews.review)

# Create a DataFrame from the bow representation
X_df = pd.DataFrame(X_review.____, columns=____._____)
print(X_df.head())

Code bewerken en uitvoeren