Specifica il pattern dei token

In questo esercizio lavorerai con la colonna text del dataset tweets. Il tuo compito è di vettorializzare la colonna di tipo object usando CountVectorizer. Applicherai diversi pattern di token nel vectorizer. Ricorda che specificando il pattern dei token puoi filtrare alcuni caratteri.

CountVectorizer è già stato importato per te.

Questo esercizio fa parte del corso

Sentiment Analysis con Python

Visualizza corso

esercizio interattivo pratico

Prova questo esercizio completando questo codice di esempio.

# Build and fit the vectorizer
vect = ____(____=r'\b[^\d\W][^\d\W]+\b').fit(tweets.text)
vect.transform(tweets.text)
print('Length of vectorizer: ', len(vect.get_feature_names()))

Modifica ed esegui il codice