Aan de slagGa gratis aan de slag

Geef het tokenpatroon op

In deze oefening werk je met de kolom text van de gegevensset tweets. Je taak is om de objectkolom te vectoriseren met CountVectorizer. Je past verschillende patronen van tokens toe in de vectorizer. Onthoud dat je door het tokenpatroon op te geven, tekens kunt filteren.

De CountVectorizer is al voor je geïmporteerd.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in Python

Cursus bekijken

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

# Build and fit the vectorizer
vect = ____(____=r'\b[^\d\W][^\d\W]+\b').fit(tweets.text)
vect.transform(tweets.text)
print('Length of vectorizer: ', len(vect.get_feature_names()))
Code bewerken en uitvoeren