Stemming
Nu je de tekst in review hebt opgeschoond en stopwoorden en interpunctie hebt verwijderd, kun je de overgebleven woorden normaliseren met stemming om woorden terug te brengen tot hun stam. Zo groepeer je vergelijkbare woorden, waardoor je analyse consistenter en efficiënter wordt.
De klasse PorterStemmer is beschikbaar, samen met een lijst clean_tokens.
Deze oefening maakt deel uit van de cursus
Natural Language Processing (NLP) in Python
Oefeninstructies
- Initialiseer de
PorterStemmer(). - Gebruik een list comprehension om elke token in de lijst
clean_tokenste stemen.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
clean_tokens = ['flying', 'lot', 'lately', 'flights', 'keep', 'getting', 'delayed', 'honestly', 'traveling', 'work', 'gets', 'exhausting', 'endless', 'delays', 'every', 'travel', 'teaches', 'something', 'new']
# Create stemmer
stemmer = ____()
# Stem each token
stemmed_tokens = [____.____(____) for ____ in clean_tokens]
print(stemmed_tokens)