Geef het tokenpatroon op

In deze oefening werk je met de kolom text van de gegevensset tweets. Je taak is om de objectkolom te vectoriseren met CountVectorizer. Je past verschillende patronen van tokens toe in de vectorizer. Onthoud dat je door het tokenpatroon op te geven, tekens kunt filteren.

De CountVectorizer is al voor je geïmporteerd.

Deze oefening maakt deel uit van de cursus

Sentimentanalyse in Python

Bekijk cursus

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Build and fit the vectorizer
vect = ____(____=r'\b[^\d\W][^\d\W]+\b').fit(tweets.text)
vect.transform(tweets.text)
print('Length of vectorizer: ', len(vect.get_feature_names()))

Code bewerken en uitvoeren