BoW- und TF-IDF-Repräsentationen vergleichen
Du bist Teil des Analytics-Teams bei einem Wearable-Tech-Unternehmen. Dein Ziel ist es, Produktmanager dabei zu unterstützen, das Kundenfeedback zur neuen Smartwatch des Unternehmens zu verstehen. Du hast den Text bereits vorverarbeitet und zwei Repräsentationen erstellt: bow_matrix mit CountVectorizer() und tfidf_matrix mit TfidfVectorizer(). In dieser Übung visualisierst und vergleichst du beide, um besser zu verstehen, wie jede die Wortwichtigkeit erfasst.
Diese Übung ist Teil des Kurses
Natural Language Processing (NLP) in Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Convert BoW matrix to a DataFrame
df_bow = pd.DataFrame(
____,
columns=vectorizer.____
)
# Plot the heatmap
plt.figure(figsize=(10, 6))
sns.heatmap(____, annot=True)
plt.title("BoW Scores Across Reviews")
plt.xlabel("Terms")
plt.xticks(rotation=45)
plt.ylabel("Documents")
plt.show()