ComeçarComece de graça

Especificar o padrão de tokens

Neste exercício, você vai trabalhar com a coluna text do conjunto de dados tweets. Sua tarefa é vetorizá-la usando CountVectorizer. Você vai aplicar diferentes padrões de tokens no vetorizar. Lembre-se de que, ao especificar o padrão de tokens, você pode filtrar caracteres.

O CountVectorizer já foi importado para você.

Este exercício faz parte do curso

Análise de Sentimentos em Python

Ver curso

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Build and fit the vectorizer
vect = ____(____=r'\b[^\d\W][^\d\W]+\b').fit(tweets.text)
vect.transform(tweets.text)
print('Length of vectorizer: ', len(vect.get_feature_names()))
Editar e executar o código