ComeçarComece de graça

Representação TF-IDF do feedback de produtos

Você está trabalhando com a equipe de suporte ao cliente de uma empresa de smart home. Eles coletaram feedback de usuários sobre vários dispositivos inteligentes e querem identificar quais palavras se destacam em cada avaliação. Você sugeriu usar a técnica TF-IDF para destacar os termos mais relevantes nos registros de feedback. Vamos ajudar a começar!

Uma função preprocess() que recebe um texto e retorna o texto processado já está carregada para você. Essa função aplica conversão para minúsculas, tokenização e remoção de pontuação. O Pandas foi importado como pd e a classe TfidfVectorizer está pronta para uso.

Este exercício faz parte do curso

Processamento de Linguagem Natural (NLP) em Python

Ver curso

Instruções do exercício

  • Inicialize um vectorizer de TF-IDF.
  • Transforme as avaliações limpas em uma tfidf_matrix.
  • Crie um DataFrame df para a tfidf_matrix, usando as palavras do vocabulário como colunas.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
           "I am disappointed with the smart bulb. It stopped working in a week.",
           "The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]

# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
  tfidf_matrix.toarray(),
  columns=vectorizer.____
)
print(df.head())
Editar e executar o código