BoW- en TF-IDF-representaties vergelijken
Je bent onderdeel van het analytics-team bij een wearablesbedrijf. Je doel is productmanagers te helpen het klantfeedback over de nieuwe smartwatch van het bedrijf te begrijpen. Je hebt de tekst al voorbewerkt en twee representaties gemaakt: bow_matrix met CountVectorizer() en tfidf_matrix met TfidfVectorizer(). In deze oefening ga je ze visualiseren en vergelijken om beter te begrijpen hoe elke methode woordbelang vastlegt.
Deze oefening maakt deel uit van de cursus
Natural Language Processing (NLP) in Python
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Convert BoW matrix to a DataFrame
df_bow = pd.DataFrame(
____,
columns=vectorizer.____
)
# Plot the heatmap
plt.figure(figsize=(10, 6))
sns.heatmap(____, annot=True)
plt.title("BoW Scores Across Reviews")
plt.xlabel("Terms")
plt.xticks(rotation=45)
plt.ylabel("Documents")
plt.show()