BOW met productreviews

Je hebt een BOW geoefend op een kleine gegevensset. Nu pas je die toe op een steekproef van Amazon-productreviews. De data is voor je geïmporteerd als reviews. Deze bevat twee kolommen. De eerste heet score en is 0 als de review negatief is en 1 als die positief is. De tweede kolom heet review en bevat de tekst van de review die een klant heeft geschreven. Verken de data gerust in de IPython Shell.

Je taak is om een BOW-woordenlijst te bouwen met de kolom review.

Onthoud dat je de methode .get_feature_names() op de vectorizer kunt aanroepen om een lijst te krijgen met alle elementen van de woordenschat.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in Python

Bekijk cursus

Oefeninstructies

Maak een CountVectorizer-object en geef het maximale aantal features op.
Fit de vectorizer.
Transformeer met de gefitte vectorizer.
Maak een DataFrame waarin je de sparse matrix omzet naar een dense array en let erop dat je de kolomnamen correct specificeert.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

from sklearn.feature_extraction.text import CountVectorizer 

# Build the vectorizer, specify max features 
vect = ____(____=100)
# Fit the vectorizer
vect.____(reviews.review)

# Transform the review column
X_review = vect.____(reviews.review)

# Create the bow representation
X_df=pd.DataFrame(X_review._____, columns=___.____)
print(X_df.head())

Code bewerken en uitvoeren