Specifica il pattern dei token
In questo esercizio lavorerai con la colonna text del dataset tweets. Il tuo compito è di vettorializzare la colonna di tipo object usando CountVectorizer. Applicherai diversi pattern di token nel vectorizer. Ricorda che specificando il pattern dei token puoi filtrare alcuni caratteri.
CountVectorizer è già stato importato per te.
Questo esercizio fa parte del corso
Sentiment Analysis con Python
Esercizio pratico interattivo
Prova a risolvere questo esercizio completando il codice di esempio.
# Build and fit the vectorizer
vect = ____(____=r'\b[^\d\W][^\d\W]+\b').fit(tweets.text)
vect.transform(tweets.text)
print('Length of vectorizer: ', len(vect.get_feature_names()))