Tekst omzetten naar getallen met BoW
Nu je een vocabulaire hebt opgebouwd uit de klantreviews, ben je klaar om elke review om te zetten naar een numeriek formaat met het Bag-of-Words (BoW)-model. Deze stap maakt een gestructureerde matrix waarin elke rij een review voorstelt en elke kolom overeenkomt met een woord uit het vocabulaire.
De lijst cleaned_reviews en de getrainde vectorizer zijn alvast voor je geladen.
Deze oefening maakt deel uit van de cursus
Natural Language Processing (NLP) in Python
Oefeninstructies
- Transformeer de
cleaned_reviewsnaar eenbow_matrix. - Print de BoW-representatie als een NumPy-array.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Transform the reviews
bow_matrix = vectorizer.____(____)
# Print the BoW representation
print(____.____())