Especificar o padrão de tokens
Neste exercício, você vai trabalhar com a coluna text do conjunto de dados tweets. Sua tarefa é vetorizá-la usando CountVectorizer. Você vai aplicar diferentes padrões de tokens no vetorizar. Lembre-se de que, ao especificar o padrão de tokens, você pode filtrar caracteres.
O CountVectorizer já foi importado para você.
Este exercício faz parte do curso
Análise de Sentimentos em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Build and fit the vectorizer
vect = ____(____=r'\b[^\d\W][^\d\W]+\b').fit(tweets.text)
vect.transform(tweets.text)
print('Length of vectorizer: ', len(vect.get_feature_names()))