Aan de slagGa gratis aan de slag

Woordenschat opbouwen uit klantreviews

Je maakt deel uit van een productanalyseteam bij TechZone, een consumentenelektronicabedrijf. Je hebt een kleine batch klantreviews ontvangen voor een nieuwe gadget. Om de reviews te analyseren, ga je eerst de tekst voorbewerken en een woordenschat opbouwen: een lijst met unieke woorden die de features definieert waarmee je elke review als numerieke data kunt representeren.

Een preprocess()-functie is alvast voor je geladen. Deze zet de tekst om naar kleine letters, tokeniseert, en verwijdert interpunctie.

Deze oefening maakt deel uit van de cursus

Natural Language Processing (NLP) in Python

Cursus bekijken

Oefeninstructies

  • Voorbewerk elke review in de gegevensset met de functie preprocess().
  • Train de vectorizer op de voorbewerkte reviews.
  • Print de resulterende woordenschat.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

reviews = [
    "The product is fantastic! It works like a charm.",
    "I hated the product. It broke after one use.",
    "Product was okay, not the best, but fine overall."
]
# Preprocess the reviews
cleaned_reviews = [____ for ____ in ____]

vectorizer = CountVectorizer()
# Fit the vectorizer
vectorizer.____
# Print the vocabulary 
print(vectorizer.____)
Code bewerken en uitvoeren