CommencerCommencer gratuitement

Comparaison des représentations BoW et TF-IDF

Vous faites partie de l'équipe d'analyse d'une entreprise spécialisée dans les technologies portables. Votre objectif est d'aider les chefs de produit à comprendre les commentaires des clients sur la nouvelle montre connectée de l'entreprise. Vous avez déjà prétraité le texte et créé deux représentations : bow_matrix à l'aide de CountVectorizer() et tfidf_matrix à l'aide de TfidfVectorizer(). Dans cet exercice, vous allez visualiser et comparer les deux méthodes afin de mieux comprendre comment chacune d'elles capture l'importance des mots.

Cet exercice fait partie du cours

Traitement du langage naturel (NLP) en Python

Afficher le cours

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Convert BoW matrix to a DataFrame
df_bow = pd.DataFrame(
    ____,
    columns=vectorizer.____
)

# Plot the heatmap
plt.figure(figsize=(10, 6))
sns.heatmap(____, annot=True)
plt.title("BoW Scores Across Reviews")
plt.xlabel("Terms")
plt.xticks(rotation=45)
plt.ylabel("Documents")
plt.show()
Modifier et exécuter le code