Representação TF-IDF do feedback do produto
Você está trabalhando com uma equipe de suporte ao cliente em uma empresa de casas inteligentes. Eles coletaram comentários dos usuários sobre vários dispositivos inteligentes e querem identificar quais palavras se destacam em cada avaliação. Você sugere usar a técnica TF-IDF para destacar os termos mais relevantes nas entradas de feedback. Vamos ajudá-los a começar!
Uma função preprocess()
que recebe um texto e devolve um texto processado já está pré-carregada para você. Essa função coloca tudo em minúsculas, divide em tokens e tira a pontuação. O Pandas foi importado como pd,
e a classe TfidfVectorizer
está pronta para ser usada.
Este exercício faz parte do curso
Processamento de Linguagem Natural (NLP) em Python
Instruções do exercício
- Inicialize um TF-IDF
vectorizer
. - Transforme as avaliações limpas em um
tfidf_matrix
. - Crie um DataFrame chamado “
df
” para o arquivo “tfidf_matrix
”, com as palavras do vocabulário como colunas.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
"I am disappointed with the smart bulb. It stopped working in a week.",
"The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]
# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
tfidf_matrix.toarray(),
columns=vectorizer.____
)
print(df.head())