TF-IDF-Darstellung von Produktbewertungen
Du arbeitest im Kundensupport bei einer Firma für Smart-Home-Lösungen. Sie haben Nutzer-Feedback zu verschiedenen Smart-Geräten gesammelt und wollen herausfinden, welche Wörter in den einzelnen Bewertungen besonders oft vorkommen. Du vorschlägst, die TF-IDF-Technik zu verwenden, um die relevantesten Begriffe in den Feedback-Einträgen hervorzuheben. Lass uns ihnen beim Start helfen!
Eine Funktion „ preprocess()
“, die einen Text entgegennimmt und einen verarbeiteten Text zurückgibt, ist bereits für dich vorinstalliert. Diese Funktion wandelt alles in Kleinbuchstaben um, zerlegt Wörter und entfernt Satzzeichen. Pandas wurde als „ pd,
“ importiert und die Klasse „ TfidfVectorizer
“ kann jetzt benutzt werden.
Diese Übung ist Teil des Kurses
Natürliche Sprachverarbeitung (NLP) in Python
Anleitung zur Übung
- Initialisiere ein TF-IDF-
vectorizer
. - Verwandle die bereinigten Bewertungen in eine „
tfidf_matrix
“ (Bewertungsliste). - Erstell einen DataFrame „
df
” für „tfidf_matrix
”, mit den Vokabeln als Spalten.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
"I am disappointed with the smart bulb. It stopped working in a week.",
"The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]
# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
tfidf_matrix.toarray(),
columns=vectorizer.____
)
print(df.head())