Comparaison des représentations BoW et TF-IDF
Vous faites partie de l'équipe d'analyse d'une entreprise spécialisée dans les technologies portables. Votre objectif est d'aider les chefs de produit à comprendre les commentaires des clients sur la nouvelle montre connectée de l'entreprise. Vous avez déjà prétraité le texte et créé deux représentations : bow_matrix
à l'aide de CountVectorizer()
et tfidf_matrix
à l'aide de TfidfVectorizer()
. Dans cet exercice, vous allez visualiser et comparer les deux méthodes afin de mieux comprendre comment chacune d'elles capture l'importance des mots.
Cet exercice fait partie du cours
Traitement du langage naturel (NLP) en Python
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Convert BoW matrix to a DataFrame
df_bow = pd.DataFrame(
____,
columns=vectorizer.____
)
# Plot the heatmap
plt.figure(figsize=(10, 6))
sns.heatmap(____, annot=True)
plt.title("BoW Scores Across Reviews")
plt.xlabel("Terms")
plt.xticks(rotation=45)
plt.ylabel("Documents")
plt.show()