LoslegenKostenlos loslegen

TF-IDF-Darstellung von Produktbewertungen

Du arbeitest im Kundensupport bei einer Firma für Smart-Home-Lösungen. Sie haben Nutzer-Feedback zu verschiedenen Smart-Geräten gesammelt und wollen herausfinden, welche Wörter in den einzelnen Bewertungen besonders oft vorkommen. Du vorschlägst, die TF-IDF-Technik zu verwenden, um die relevantesten Begriffe in den Feedback-Einträgen hervorzuheben. Lass uns ihnen beim Start helfen!

Eine Funktion „ preprocess() “, die einen Text entgegennimmt und einen verarbeiteten Text zurückgibt, ist bereits für dich vorinstalliert. Diese Funktion wandelt alles in Kleinbuchstaben um, zerlegt Wörter und entfernt Satzzeichen. Pandas wurde als „ pd, “ importiert und die Klasse „ TfidfVectorizer “ kann jetzt benutzt werden.

Diese Übung ist Teil des Kurses

Natürliche Sprachverarbeitung (NLP) in Python

Kurs anzeigen

Anleitung zur Übung

  • Initialisiere ein TF-IDF- vectorizer.
  • Verwandle die bereinigten Bewertungen in eine „ tfidf_matrix “ (Bewertungsliste).
  • Erstell einen DataFrame „ df ” für „ tfidf_matrix ”, mit den Vokabeln als Spalten.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

reviews = ["The smart speaker is incredible. Clear sound and fast responses!",
           "I am disappointed with the smart bulb. It stopped working in a week.",
           "The thermostat is okay. Not too smart, but functional."]
cleaned_reviews = [preprocess(review) for review in reviews]

# Initialize the vectorizer
vectorizer = ____
# Transform the cleaned reviews
tfidf_matrix = ____
# Create a DataFrame for TF-IDF
df = pd.DataFrame(
  tfidf_matrix.toarray(),
  columns=vectorizer.____
)
print(df.head())
Code bearbeiten und ausführen