Seu primeiro BOW
Bag-of-words é uma abordagem para transformar texto em formato numérico.
Neste exercício, você vai aplicar um BOW à lista annak antes de seguir para um conjunto de dados maior no próximo exercício.
Sua tarefa será trabalhar com essa lista e aplicar um BOW usando o CountVectorizer(). Essa transformação é o primeiro passo para entender o sentimento de um texto. Preste atenção às palavras que podem carregar um sentimento forte.
Lembre-se de que a saída de CountVectorizer() é uma matriz esparsa, que armazena apenas as entradas diferentes de zero. Para ver o conteúdo real dessa matriz, converta-a em um array denso usando o método .toarray().
Observe que, neste caso, você não precisa especificar o argumento max_features porque o texto é curto.
Este exercício faz parte do curso
Análise de Sentimentos em Python
Instruções do exercício
- Importe a função de vetorização de contagem de
sklearn.feature_extraction.text. - Construa e ajuste o vetorizador no conjunto de dados pequeno.
- Crie a representação BOW com o nome
anna_bowchamando o métodotransform(). - Imprima o resultado do BOW como um array denso.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the required function
____
annak = ['Happy families are all alike;', 'every unhappy family is unhappy in its own way']
# Build the vectorizer and fit it
anna_vect = ____
____.____(annak)
# Create the bow representation
anna_bow = anna_vect.____(annak)
# Print the bag-of-words result
print(anna_bow.toarray())