ComeçarComece de graça

Seu primeiro BOW

Bag-of-words é uma abordagem para transformar texto em formato numérico.

Neste exercício, você vai aplicar um BOW à lista annak antes de seguir para um conjunto de dados maior no próximo exercício.

Sua tarefa será trabalhar com essa lista e aplicar um BOW usando o CountVectorizer(). Essa transformação é o primeiro passo para entender o sentimento de um texto. Preste atenção às palavras que podem carregar um sentimento forte.

Lembre-se de que a saída de CountVectorizer() é uma matriz esparsa, que armazena apenas as entradas diferentes de zero. Para ver o conteúdo real dessa matriz, converta-a em um array denso usando o método .toarray().

Observe que, neste caso, você não precisa especificar o argumento max_features porque o texto é curto.

Este exercício faz parte do curso

Análise de Sentimentos em Python

Ver curso

Instruções do exercício

  • Importe a função de vetorização de contagem de sklearn.feature_extraction.text.
  • Construa e ajuste o vetorizador no conjunto de dados pequeno.
  • Crie a representação BOW com o nome anna_bow chamando o método transform().
  • Imprima o resultado do BOW como um array denso.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the required function
____

annak = ['Happy families are all alike;', 'every unhappy family is unhappy in its own way']

# Build the vectorizer and fit it
anna_vect = ____
____.____(annak)

# Create the bow representation
anna_bow = anna_vect.____(annak)

# Print the bag-of-words result 
print(anna_bow.toarray())
Editar e executar o código