BOW met productreviews
Je hebt een BOW geoefend op een kleine gegevensset. Nu pas je die toe op een steekproef van Amazon-productreviews. De data is voor je geïmporteerd als reviews. Deze bevat twee kolommen. De eerste heet score en is 0 als de review negatief is en 1 als die positief is. De tweede kolom heet review en bevat de tekst van de review die een klant heeft geschreven. Verken de data gerust in de IPython Shell.
Je taak is om een BOW-woordenlijst te bouwen met de kolom review.
Onthoud dat je de methode .get_feature_names() op de vectorizer kunt aanroepen om een lijst te krijgen met alle elementen van de woordenschat.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in Python
Oefeninstructies
- Maak een CountVectorizer-object en geef het maximale aantal features op.
- Fit de vectorizer.
- Transformeer met de gefitte vectorizer.
- Maak een DataFrame waarin je de sparse matrix omzet naar een dense array en let erop dat je de kolomnamen correct specificeert.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
from sklearn.feature_extraction.text import CountVectorizer
# Build the vectorizer, specify max features
vect = ____(____=100)
# Fit the vectorizer
vect.____(reviews.review)
# Transform the review column
X_review = vect.____(reviews.review)
# Create the bow representation
X_df=pd.DataFrame(X_review._____, columns=___.____)
print(X_df.head())