Construindo vocabulário a partir de avaliações de clientes

Você faz parte do time de análise de produto da TechZone, uma empresa de eletrônicos de consumo. Você recebeu um pequeno lote de avaliações de clientes sobre um novo gadget. Para analisar essas avaliações, primeiro você vai pré-processar o texto e construir um vocabulário, uma lista de palavras únicas que define os atributos usados para representar cada avaliação como dados numéricos.

Uma função preprocess() já está carregada para você. Ela coloca o texto em minúsculas, tokeniza e remove a pontuação.

Este exercicio faz parte do curso

Processamento de Linguagem Natural (NLP) em Python

Instruções do exercicio

Pré-processe cada avaliação no conjunto de dados usando a função preprocess().
Ajuste o vectorizer aos reviews pré-processados.
Imprima o vocabulário resultante.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

reviews = [
    "The product is fantastic! It works like a charm.",
    "I hated the product. It broke after one use.",
    "Product was okay, not the best, but fine overall."
]
# Preprocess the reviews
cleaned_reviews = [____ for ____ in ____]

vectorizer = CountVectorizer()
# Fit the vectorizer
vectorizer.____
# Print the vocabulary 
print(vectorizer.____)

Editar e Executar Código

Este exercicio faz parte do curso

Processamento de Linguagem Natural (NLP) em Python

IntermediárioNível de habilidade

4.9+

Comece o curso gratuitamente

Aprenda o essencial do processamento de texto em Processamento de Linguagem Natural (NLP). Domine técnicas como tokenização, remoção de stop words e pontuação, e normalização de texto com conversão para minúsculas, stemming e lematização para preparar dados textuais para análises e extração de insights.

Exercise 1: Introdução ao processamento de linguagem natural Exercise 2: Tokenização de sentenças e palavras Exercise 3: Fluxo de trabalho de NLP Exercise 4: Tratamento de stop words e pontuação Exercise 5: Removendo stop words Exercise 6: Removendo pontuação Exercise 7: Técnicas de normalização de texto Exercise 8: Letras minúsculas (lowercasing)Exercise 9: Stemming Exercise 10: Lematização

Transforme texto bruto em poderosas features numéricas. Crie representações Bag-of-Words e TF-IDF para capturar a importância das palavras entre documentos, depois explore embeddings como Word2Vec e GloVe para revelar padrões semânticos profundos. Visualize frequência, relevância e similaridade para dar vida aos seus dados de texto.

Exercise 1: Representação Bag-of-Words Exercise 2: Construindo vocabulário a partir de avaliações de clientes

Exercicio Atual

Exercise 3: Transformando texto em números com BoW Exercise 4: Análise de frequência em avaliações de produtos Exercise 5: Visualizando frequências de palavras Exercise 6: Vetorização TF-IDF Exercise 7: Representação TF-IDF do feedback de produtos Exercise 8: Comparando as representações BoW e TF-IDF Exercise 9: Embeddings Exercise 10: Explorando relações entre palavras com embeddings Exercise 11: Visualizando e comparando word embeddings

Aproveite o poder de modelos pré-treinados para realizar tarefas avançadas de classificação de texto. Use pipelines do Hugging Face para análise de sentimento, classificação por tópico e inferência de linguagem natural. Avalie similaridade semântica e correção gramatical com modelos de última geração, sem precisar construir nada do zero.

Exercise 1: Pipelines do Hugging Face para análise de sentimento Exercise 2: Analisando o sentimento de uma avaliação Exercise 3: Classificação em lote de várias avaliações Exercise 4: Comparando modelos em dados de avaliações rotuladas Exercise 5: Classificação zero-shot e QNLI Exercise 6: Classificação zero-shot de tickets de suporte Exercise 7: O texto responde à pergunta?Exercise 8: Similaridade de perguntas e correção gramatical Exercise 9: Detectando perguntas duplicadas Exercise 10: Verificando a correção gramatical

Mergulhe no coração das aplicações modernas de NLP com técnicas de classificação por tokens e geração de texto. Aprenda a extrair entidades significativas e estruturas gramaticais usando NER e marcação PoS. Domine perguntas e respostas extrativas e abstrativas, e explore tarefas avançadas de geração, incluindo sumarização, tradução e modelagem de linguagem usando pipelines do Hugging Face.

Exercise 1: Classificação de tokens Exercise 2: Identificando entidades nomeadas em manchetes de notícias Exercise 3: Marcação de Partes do Discurso para análise de texto Exercise 4: Question answering Exercise 5: Respondendo perguntas a partir de descrições de produtos Exercise 6: Gerando respostas naturais com QA abstrativo Exercise 7: Tarefas de geração de sequência Exercise 8: Resumindo notícias para insights rápidos Exercise 9: Traduzindo avaliações de clientes para o francês Exercise 10: Construindo um sistema de autocompletar para buscas Exercise 11: Parabéns