Geef het tokenpatroon op
In deze oefening werk je met de kolom text van de gegevensset tweets. Je taak is om de objectkolom te vectoriseren met CountVectorizer. Je past verschillende patronen van tokens toe in de vectorizer. Onthoud dat je door het tokenpatroon op te geven, tekens kunt filteren.
De CountVectorizer is al voor je geïmporteerd.
Deze oefening maakt deel uit van de cursus
Sentimentanalyse in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Build and fit the vectorizer
vect = ____(____=r'\b[^\d\W][^\d\W]+\b').fit(tweets.text)
vect.transform(tweets.text)
print('Length of vectorizer: ', len(vect.get_feature_names()))