LoslegenKostenlos starten

Wortschatz aus Kundenrezensionen aufbauen

Du bist Teil des Produktanalyse-Teams bei TechZone, einem Unternehmen für Unterhaltungselektronik. Du hast einen kleinen Stapel Kundenrezensionen zu einem neuen Gadget erhalten. Um die Rezensionen zu analysieren, wirst du zuerst den Text vorverarbeiten und einen Wortschatz aufbauen – eine Liste einzigartiger Wörter, die die Features definiert, mit denen jede Rezension als numerische Daten dargestellt wird.

Eine Funktion preprocess() ist bereits für dich geladen. Sie wandelt den Text in Kleinbuchstaben um, tokenisiert ihn und entfernt Satzzeichen.

Diese Übung ist Teil des Kurses

<Kurs>Natural Language Processing (NLP) in Python</Kurs>
Kurs ansehen

Übungsanweisungen

  • Verarbeite jede Rezension im Datensatz mit der Funktion preprocess() vor.
  • Fitte den vectorizer auf den vorverarbeiteten Rezensionen.
  • Gib den resultierenden Wortschatz aus.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

reviews = [
    "The product is fantastic! It works like a charm.",
    "I hated the product. It broke after one use.",
    "Product was okay, not the best, but fine overall."
]
# Preprocess the reviews
cleaned_reviews = [____ for ____ in ____]

vectorizer = CountVectorizer()
# Fit the vectorizer
vectorizer.____
# Print the vocabulary 
print(vectorizer.____)
Code bearbeiten und ausführen