Je eerste BOW
Een bag-of-words is een manier om tekst om te zetten naar numerieke vorm.
In deze oefening pas je een BOW toe op de lijst annak voordat je in de volgende oefening met een grotere gegevensset werkt.
Je taak is om met deze lijst te werken en een BOW toe te passen met CountVectorizer(). Deze transformatie is je eerste stap om het sentiment van een tekst te kunnen begrijpen. Let vooral op woorden die een sterk sentiment kunnen uitdragen.
Onthoud dat de output van CountVectorizer() een sparse matrix is, die alleen niet-nul waarden opslaat. Om de daadwerkelijke inhoud van deze matrix te bekijken, zetten we die om naar een dense array met de methode .toarray().
Merk op dat je in dit geval het argument max_features niet hoeft op te geven, omdat de tekst kort is.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in Python
Oefeninstructies
- Importeer de count vectorizer-functie uit
sklearn.feature_extraction.text. - Bouw en fit de vectorizer op de kleine gegevensset.
- Maak de BOW-representatie met de naam
anna_bowdoor de methodetransform()aan te roepen. - Print het BOW-resultaat als een dense array.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Import the required function
____
annak = ['Happy families are all alike;', 'every unhappy family is unhappy in its own way']
# Build the vectorizer and fit it
anna_vect = ____
____.____(annak)
# Create the bow representation
anna_bow = anna_vect.____(annak)
# Print the bag-of-words result
print(anna_bow.toarray())