Representação TF-IDF do feedback de produtos

Você está trabalhando com a equipe de suporte ao cliente de uma empresa de smart home. Eles coletaram feedback de usuários sobre vários dispositivos inteligentes e querem identificar quais palavras se destacam em cada avaliação. Você sugeriu usar a técnica TF-IDF para destacar os termos mais relevantes nos registros de feedback. Vamos ajudar a começar!

Uma função preprocess() que recebe um texto e retorna o texto processado já está carregada para você. Essa função aplica conversão para minúsculas, tokenização e remoção de pontuação. O Pandas foi importado como pd e a classe TfidfVectorizer está pronta para uso.

Este exercicio faz parte do curso

Processamento de Linguagem Natural (NLP) em Python

Instruções do exercicio

Inicialize um vectorizer de TF-IDF.
Transforme as avaliações limpas em uma tfidf_matrix.
Crie um DataFrame df para a tfidf_matrix, usando as palavras do vocabulário como colunas.

exercicio interativo prático

Tente este exercicio completando este código de exemplo.

reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
           "I am disappointed with the smart bulb. It stopped working in a week.",
           "The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]

# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
  tfidf_matrix.toarray(),
  columns=vectorizer.____
)
print(df.head())

Editar e Executar Código

Este exercicio faz parte do curso

Processamento de Linguagem Natural (NLP) em Python

IntermediárioNível de habilidade

4.9+

Comece o curso gratuitamente

Aprenda o essencial do processamento de texto em Processamento de Linguagem Natural (NLP). Domine técnicas como tokenização, remoção de stop words e pontuação, e normalização de texto com conversão para minúsculas, stemming e lematização para preparar dados textuais para análises e extração de insights.

Exercise 1: Introdução ao processamento de linguagem natural Exercise 2: Tokenização de sentenças e palavras Exercise 3: Fluxo de trabalho de NLP Exercise 4: Tratamento de stop words e pontuação Exercise 5: Removendo stop words Exercise 6: Removendo pontuação Exercise 7: Técnicas de normalização de texto Exercise 8: Letras minúsculas (lowercasing)Exercise 9: Stemming Exercise 10: Lematização

Transforme texto bruto em poderosas features numéricas. Crie representações Bag-of-Words e TF-IDF para capturar a importância das palavras entre documentos, depois explore embeddings como Word2Vec e GloVe para revelar padrões semânticos profundos. Visualize frequência, relevância e similaridade para dar vida aos seus dados de texto.

Exercise 1: Representação Bag-of-Words Exercise 2: Construindo vocabulário a partir de avaliações de clientes Exercise 3: Transformando texto em números com BoW Exercise 4: Análise de frequência em avaliações de produtos Exercise 5: Visualizando frequências de palavras Exercise 6: Vetorização TF-IDF Exercise 7: Representação TF-IDF do feedback de produtos

Exercicio Atual

Exercise 8: Comparando as representações BoW e TF-IDF Exercise 9: Embeddings Exercise 10: Explorando relações entre palavras com embeddings Exercise 11: Visualizando e comparando word embeddings

Aproveite o poder de modelos pré-treinados para realizar tarefas avançadas de classificação de texto. Use pipelines do Hugging Face para análise de sentimento, classificação por tópico e inferência de linguagem natural. Avalie similaridade semântica e correção gramatical com modelos de última geração, sem precisar construir nada do zero.

Exercise 1: Pipelines do Hugging Face para análise de sentimento Exercise 2: Analisando o sentimento de uma avaliação Exercise 3: Classificação em lote de várias avaliações Exercise 4: Comparando modelos em dados de avaliações rotuladas Exercise 5: Classificação zero-shot e QNLI Exercise 6: Classificação zero-shot de tickets de suporte Exercise 7: O texto responde à pergunta?Exercise 8: Similaridade de perguntas e correção gramatical Exercise 9: Detectando perguntas duplicadas Exercise 10: Verificando a correção gramatical

Mergulhe no coração das aplicações modernas de NLP com técnicas de classificação por tokens e geração de texto. Aprenda a extrair entidades significativas e estruturas gramaticais usando NER e marcação PoS. Domine perguntas e respostas extrativas e abstrativas, e explore tarefas avançadas de geração, incluindo sumarização, tradução e modelagem de linguagem usando pipelines do Hugging Face.

Exercise 1: Classificação de tokens Exercise 2: Identificando entidades nomeadas em manchetes de notícias Exercise 3: Marcação de Partes do Discurso para análise de texto Exercise 4: Question answering Exercise 5: Respondendo perguntas a partir de descrições de produtos Exercise 6: Gerando respostas naturais com QA abstrativo Exercise 7: Tarefas de geração de sequência Exercise 8: Resumindo notícias para insights rápidos Exercise 9: Traduzindo avaliações de clientes para o francês Exercise 10: Construindo um sistema de autocompletar para buscas Exercise 11: Parabéns