LoslegenKostenlos loslegen

Wortschatz aus Kundenrezensionen aufbauen

Du bist Teil des Produktanalyse-Teams bei TechZone, einem Unternehmen für Unterhaltungselektronik. Du hast einen kleinen Stapel Kundenrezensionen zu einem neuen Gadget erhalten. Um die Rezensionen zu analysieren, wirst du zuerst den Text vorverarbeiten und einen Wortschatz aufbauen – eine Liste einzigartiger Wörter, die die Features definiert, mit denen jede Rezension als numerische Daten dargestellt wird.

Eine Funktion preprocess() ist bereits für dich geladen. Sie wandelt den Text in Kleinbuchstaben um, tokenisiert ihn und entfernt Satzzeichen.

Diese Übung ist Teil des Kurses

Natural Language Processing (NLP) in Python

Kurs anzeigen

Anleitung zur Übung

  • Verarbeite jede Rezension im Datensatz mit der Funktion preprocess() vor.
  • Fitte den vectorizer auf den vorverarbeiteten Rezensionen.
  • Gib den resultierenden Wortschatz aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

reviews = [
    "The product is fantastic! It works like a charm.",
    "I hated the product. It broke after one use.",
    "Product was okay, not the best, but fine overall."
]
# Preprocess the reviews
cleaned_reviews = [____ for ____ in ____]

vectorizer = CountVectorizer()
# Fit the vectorizer
vectorizer.____
# Print the vocabulary 
print(vectorizer.____)
Code bearbeiten und ausführen