Je eerste BOW

Een bag-of-words is een manier om tekst om te zetten naar numerieke vorm.

In deze oefening pas je een BOW toe op de lijst annak voordat je in de volgende oefening met een grotere gegevensset werkt.

Je taak is om met deze lijst te werken en een BOW toe te passen met CountVectorizer(). Deze transformatie is je eerste stap om het sentiment van een tekst te kunnen begrijpen. Let vooral op woorden die een sterk sentiment kunnen uitdragen.

Onthoud dat de output van CountVectorizer() een sparse matrix is, die alleen niet-nul waarden opslaat. Om de daadwerkelijke inhoud van deze matrix te bekijken, zetten we die om naar een dense array met de methode .toarray().

Merk op dat je in dit geval het argument max_features niet hoeft op te geven, omdat de tekst kort is.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in Python

Bekijk cursus

Oefeninstructies

Importeer de count vectorizer-functie uit sklearn.feature_extraction.text.
Bouw en fit de vectorizer op de kleine gegevensset.
Maak de BOW-representatie met de naam anna_bow door de methode transform() aan te roepen.
Print het BOW-resultaat als een dense array.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Import the required function
____

annak = ['Happy families are all alike;', 'every unhappy family is unhappy in its own way']

# Build the vectorizer and fit it
anna_vect = ____
____.____(annak)

# Create the bow representation
anna_bow = anna_vect.____(annak)

# Print the bag-of-words result 
print(anna_bow.toarray())

Code bewerken en uitvoeren