Transformando texto em números com BoW
Agora que você criou um vocabulário a partir das avaliações dos clientes, está pronto para transformar cada avaliação em um formato numérico usando o modelo Bag-of-Words (BoW). Essa etapa cria uma matriz estruturada, onde cada linha representa uma revisão e cada coluna corresponde a uma palavra do vocabulário.
A lista “ cleaned_reviews
” e a lista personalizada “ vectorizer
” já estão carregadas para você.
Este exercício faz parte do curso
Processamento de Linguagem Natural (NLP) em Python
Instruções do exercício
- Transforme o
cleaned_reviews
em umbow_matrix
. - Imprima a representação BoW como uma matriz NumPy.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Transform the reviews
bow_matrix = vectorizer.____(____)
# Print the BoW representation
print(____.____())