Comparer les représentations BoW et TF-IDF
Vous faites partie de l’équipe analytique d’une entreprise de wearables. Votre objectif est d’aider les chefs de produit à comprendre les retours clients sur la nouvelle montre connectée de l’entreprise. Vous avez déjà prétraité le texte et créé deux représentations : bow_matrix avec CountVectorizer(), et tfidf_matrix avec TfidfVectorizer(). Dans cet exercice, vous allez les visualiser et les comparer pour mieux comprendre comment chacune capture l’importance des mots.
Cet exercice fait partie du cours
<cours>Natural Language Processing (NLP) in Python</cours>Exercice interactif pratique
Essayez cet exercice en complétant ce code d’exemple.
# Convert BoW matrix to a DataFrame
df_bow = pd.DataFrame(
____,
columns=vectorizer.____
)
# Plot the heatmap
plt.figure(figsize=(10, 6))
sns.heatmap(____, annot=True)
plt.title("BoW Scores Across Reviews")
plt.xlabel("Terms")
plt.xticks(rotation=45)
plt.ylabel("Documents")
plt.show()