Aan de slagBegin gratis

Stemming

Nu je de tekst in review hebt opgeschoond en stopwoorden en interpunctie hebt verwijderd, kun je de overgebleven woorden normaliseren met stemming om woorden terug te brengen tot hun stam. Zo groepeer je vergelijkbare woorden, waardoor je analyse consistenter en efficiënter wordt.

De klasse PorterStemmer is beschikbaar, samen met een lijst clean_tokens.

Deze oefening maakt deel uit van de cursus

Natural Language Processing (NLP) in Python

Bekijk cursus

Oefeninstructies

  • Initialiseer de PorterStemmer().
  • Gebruik een list comprehension om elke token in de lijst clean_tokens te stemen.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

clean_tokens = ['flying', 'lot', 'lately', 'flights', 'keep', 'getting', 'delayed', 'honestly', 'traveling', 'work', 'gets', 'exhausting', 'endless', 'delays', 'every', 'travel', 'teaches', 'something', 'new']

# Create stemmer
stemmer = ____()

# Stem each token
stemmed_tokens = [____.____(____) for ____ in clean_tokens]

print(stemmed_tokens)
Code bewerken en uitvoeren