Woordenschat opbouwen uit klantreviews
Je maakt deel uit van een productanalyseteam bij TechZone, een consumentenelektronicabedrijf. Je hebt een kleine batch klantreviews ontvangen voor een nieuwe gadget. Om de reviews te analyseren, ga je eerst de tekst voorbewerken en een woordenschat opbouwen: een lijst met unieke woorden die de features definieert waarmee je elke review als numerieke data kunt representeren.
Een preprocess()-functie is alvast voor je geladen. Deze zet de tekst om naar kleine letters, tokeniseert, en verwijdert interpunctie.
Deze oefening maakt deel uit van de cursus
Natural Language Processing (NLP) in Python
Oefeninstructies
- Voorbewerk elke review in de gegevensset met de functie
preprocess(). - Train de
vectorizerop de voorbewerkte reviews. - Print de resulterende woordenschat.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
reviews = [
"The product is fantastic! It works like a charm.",
"I hated the product. It broke after one use.",
"Product was okay, not the best, but fine overall."
]
# Preprocess the reviews
cleaned_reviews = [____ for ____ in ____]
vectorizer = CountVectorizer()
# Fit the vectorizer
vectorizer.____
# Print the vocabulary
print(vectorizer.____)