BOW met n-grams en woordenschatgrootte
In deze oefening ga je opnieuw een bag-of-words bouwen met de reviews-gegevensset met Amazon-productreviews. Je belangrijkste taak is om de omvang van de woordenschat te beperken en de lengte van de tokenreeks te specificeren.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in Python
Oefeninstructies
- Importeer de vectorizer uit
sklearn. - Bouw de vectorizer en specificeer de volgende parameters: de woordenschatgrootte moet worden beperkt tot 1000, neem alleen bigrams op en negeer termen die in meer dan 500 documenten voorkomen.
- Fit de vectorizer op de kolom
review. - Maak een DataFrame op basis van de BOW-representatie.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
#Import the vectorizer
from sklearn.____.____ import ____
# Build the vectorizer, specify max features and fit
vect = ____(____=1000, ____=(2, 2), ____=500)
vect.____(reviews.review)
# Transform the review
X_review = vect.transform(reviews.review)
# Create a DataFrame from the bow representation
X_df = pd.DataFrame(X_review.____, columns=____._____)
print(X_df.head())