Aan de slagGa gratis aan de slag

Stemming

Nu je de tekst in review hebt opgeschoond en stopwoorden en interpunctie hebt verwijderd, kun je de overgebleven woorden normaliseren met stemming om woorden terug te brengen tot hun stam. Zo groepeer je vergelijkbare woorden, waardoor je analyse consistenter en efficiënter wordt.

De klasse PorterStemmer is beschikbaar, samen met een lijst clean_tokens.

Deze oefening maakt deel uit van de cursus

Natural Language Processing (NLP) in Python

Cursus bekijken

Oefeninstructies

  • Initialiseer de PorterStemmer().
  • Gebruik een list comprehension om elke token in de lijst clean_tokens te stemen.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

clean_tokens = ['flying', 'lot', 'lately', 'flights', 'keep', 'getting', 'delayed', 'honestly', 'traveling', 'work', 'gets', 'exhausting', 'endless', 'delays', 'every', 'travel', 'teaches', 'something', 'new']

# Create stemmer
stemmer = ____()

# Stem each token
stemmed_tokens = [____.____(____) for ____ in clean_tokens]

print(stemmed_tokens)
Code bewerken en uitvoeren