Comparer les représentations BoW et TF-IDF
Vous faites partie de l’équipe analytique d’une entreprise de wearables. Votre objectif est d’aider les chefs de produit à comprendre les retours clients sur la nouvelle montre connectée de l’entreprise. Vous avez déjà prétraité le texte et créé deux représentations : bow_matrix avec CountVectorizer(), et tfidf_matrix avec TfidfVectorizer(). Dans cet exercice, vous allez les visualiser et les comparer pour mieux comprendre comment chacune capture l’importance des mots.
Cet exercice fait partie du cours
Natural Language Processing (NLP) in Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Convert BoW matrix to a DataFrame
df_bow = pd.DataFrame(
____,
columns=vectorizer.____
)
# Plot the heatmap
plt.figure(figsize=(10, 6))
sns.heatmap(____, annot=True)
plt.title("BoW Scores Across Reviews")
plt.xlabel("Terms")
plt.xticks(rotation=45)
plt.ylabel("Documents")
plt.show()