Especificar o padrão de tokens

Neste exercício, você vai trabalhar com a coluna text do conjunto de dados tweets. Sua tarefa é vetorizá-la usando CountVectorizer. Você vai aplicar diferentes padrões de tokens no vetorizar. Lembre-se de que, ao especificar o padrão de tokens, você pode filtrar caracteres.

O CountVectorizer já foi importado para você.

Este exercicio faz parte do curso

Análise de Sentimentos em Python

Ver curso

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

# Build and fit the vectorizer
vect = ____(____=r'\b[^\d\W][^\d\W]+\b').fit(tweets.text)
vect.transform(tweets.text)
print('Length of vectorizer: ', len(vect.get_feature_names()))

Editar e Executar Código