Aan de slagGa gratis aan de slag

Lemmatization

Terwijl je verdergaat met je analyse van gebruikersreviews, merk je dat stemming soms niet-standaard woorden oplevert, zoals "fli" uit "flying", wat de interpreteerbaarheid vermindert. Om dit aan te pakken, ga je nu lemmatization gebruiken, waarmee je echte woorden terugkrijgt en de duidelijkheid en nauwkeurigheid van je analyse verbetert.

WordNetLemmatizer is geïmporteerd, stop_words is gedefinieerd en de benodigde NLTK-resources zijn gedownload.

Deze oefening maakt deel uit van de cursus

Natural Language Processing (NLP) in Python

Cursus bekijken

Oefeninstructies

  • Maak een instantie lemmatizer van de klasse WordNetLemmatizer().
  • Gebruik de lemmatizer om de lower_tokens te lemmatiseren.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

clean_tokens = ['flying', 'lot', 'lately', 'flights', 'keep', 'getting', 'delayed', 'honestly', 'traveling', 'work', 'gets', 'exhausting', 'endless', 'delays', 'every', 'travel', 'teaches', 'something', 'new']

# Create lemmatizer
lemmatizer = ____()

# Lemmatize each token
lemmatized_tokens = [____.____(____) for ____ in clean_tokens]

print(lemmatized_tokens)
Code bewerken en uitvoeren