Representação TF-IDF do feedback de produtos
Você está trabalhando com a equipe de suporte ao cliente de uma empresa de smart home. Eles coletaram feedback de usuários sobre vários dispositivos inteligentes e querem identificar quais palavras se destacam em cada avaliação. Você sugeriu usar a técnica TF-IDF para destacar os termos mais relevantes nos registros de feedback. Vamos ajudar a começar!
Uma função preprocess() que recebe um texto e retorna o texto processado já está carregada para você. Essa função aplica conversão para minúsculas, tokenização e remoção de pontuação. O Pandas foi importado como pd e a classe TfidfVectorizer está pronta para uso.
Este exercício faz parte do curso
Processamento de Linguagem Natural (NLP) em Python
Instruções do exercício
- Inicialize um
vectorizerde TF-IDF. - Transforme as avaliações limpas em uma
tfidf_matrix. - Crie um DataFrame
dfpara atfidf_matrix, usando as palavras do vocabulário como colunas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
"I am disappointed with the smart bulb. It stopped working in a week.",
"The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]
# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
tfidf_matrix.toarray(),
columns=vectorizer.____
)
print(df.head())