ComeçarComece de graça

Representação TF-IDF do feedback do produto

Você está trabalhando com uma equipe de suporte ao cliente em uma empresa de casas inteligentes. Eles coletaram comentários dos usuários sobre vários dispositivos inteligentes e querem identificar quais palavras se destacam em cada avaliação. Você sugere usar a técnica TF-IDF para destacar os termos mais relevantes nas entradas de feedback. Vamos ajudá-los a começar!

Uma função preprocess() que recebe um texto e devolve um texto processado já está pré-carregada para você. Essa função coloca tudo em minúsculas, divide em tokens e tira a pontuação. O Pandas foi importado como pd, e a classe TfidfVectorizer está pronta para ser usada.

Este exercício faz parte do curso

Processamento de Linguagem Natural (NLP) em Python

Ver curso

Instruções do exercício

  • Inicialize um TF-IDF vectorizer.
  • Transforme as avaliações limpas em um tfidf_matrix.
  • Crie um DataFrame chamado “ df ” para o arquivo “ tfidf_matrix ”, com as palavras do vocabulário como colunas.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
           "I am disappointed with the smart bulb. It stopped working in a week.",
           "The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]

# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
  tfidf_matrix.toarray(),
  columns=vectorizer.____
)
print(df.head())
Editar e executar o código