Vergleich zwischen BoW- und TF-IDF-Darstellungen
Du bist Teil des Analytics-Teams bei einem Unternehmen für tragbare Technologie. Deine Aufgabe ist es, den Produktmanagern dabei zu helfen, das Kundenfeedback zur neuen Smartwatch des Unternehmens zu verstehen. Du hast den Text schon vorbearbeitet und zwei Darstellungen erstellt: „ bow_matrix
” mit „ CountVectorizer()
” und „ tfidf_matrix
” mit „ TfidfVectorizer()
”. In dieser Übung wirst du die beiden visualisieren und vergleichen, um besser zu verstehen, wie sie die Wichtigkeit von Wörtern erfassen.
Diese Übung ist Teil des Kurses
Natürliche Sprachverarbeitung (NLP) in Python
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
# Convert BoW matrix to a DataFrame
df_bow = pd.DataFrame(
____,
columns=vectorizer.____
)
# Plot the heatmap
plt.figure(figsize=(10, 6))
sns.heatmap(____, annot=True)
plt.title("BoW Scores Across Reviews")
plt.xlabel("Terms")
plt.xticks(rotation=45)
plt.ylabel("Documents")
plt.show()