BoW- en TF-IDF-representaties vergelijken
Je bent onderdeel van het analytics-team bij een wearablesbedrijf. Je doel is productmanagers te helpen het klantfeedback over de nieuwe smartwatch van het bedrijf te begrijpen. Je hebt de tekst al voorbewerkt en twee representaties gemaakt: bow_matrix met CountVectorizer() en tfidf_matrix met TfidfVectorizer(). In deze oefening ga je ze visualiseren en vergelijken om beter te begrijpen hoe elke methode woordbelang vastlegt.
Deze oefening maakt deel uit van de cursus
Natural Language Processing (NLP) in Python
Interactieve oefening met praktijkervaring
Probeer deze oefening door deze voorbeeldcode aan te vullen.
# Convert BoW matrix to a DataFrame
df_bow = pd.DataFrame(
____,
columns=vectorizer.____
)
# Plot the heatmap
plt.figure(figsize=(10, 6))
sns.heatmap(____, annot=True)
plt.title("BoW Scores Across Reviews")
plt.xlabel("Terms")
plt.xticks(rotation=45)
plt.ylabel("Documents")
plt.show()