Comece agoraComece grátis

Construindo vocabulário a partir de avaliações de clientes

Você faz parte do time de análise de produto da TechZone, uma empresa de eletrônicos de consumo. Você recebeu um pequeno lote de avaliações de clientes sobre um novo gadget. Para analisar essas avaliações, primeiro você vai pré-processar o texto e construir um vocabulário, uma lista de palavras únicas que define os atributos usados para representar cada avaliação como dados numéricos.

Uma função preprocess() já está carregada para você. Ela coloca o texto em minúsculas, tokeniza e remove a pontuação.

Este exercicio faz parte do curso

Processamento de Linguagem Natural (NLP) em Python

Ver curso

Instruções do exercicio

  • Pré-processe cada avaliação no conjunto de dados usando a função preprocess().
  • Ajuste o vectorizer aos reviews pré-processados.
  • Imprima o vocabulário resultante.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

reviews = [
    "The product is fantastic! It works like a charm.",
    "I hated the product. It broke after one use.",
    "Product was okay, not the best, but fine overall."
]
# Preprocess the reviews
cleaned_reviews = [____ for ____ in ____]

vectorizer = CountVectorizer()
# Fit the vectorizer
vectorizer.____
# Print the vocabulary 
print(vectorizer.____)
Editar e Executar Código