Comparando as representações BoW e TF-IDF
Você faz parte da equipe de análise de uma empresa de tecnologia vestível. Seu objetivo é ajudar os gerentes de produto a entender o feedback dos clientes sobre o novo smartwatch da empresa. Você já pré-processou o texto e criou duas representações: bow_matrix
usando CountVectorizer()
e tfidf_matrix
usando TfidfVectorizer()
. Neste exercício, você vai visualizar e comparar os dois para entender melhor como cada um captura a importância das palavras.
Este exercício faz parte do curso
Processamento de Linguagem Natural (NLP) em Python
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Convert BoW matrix to a DataFrame
df_bow = pd.DataFrame(
____,
columns=vectorizer.____
)
# Plot the heatmap
plt.figure(figsize=(10, 6))
sns.heatmap(____, annot=True)
plt.title("BoW Scores Across Reviews")
plt.xlabel("Terms")
plt.xticks(rotation=45)
plt.ylabel("Documents")
plt.show()