Lemmatisierung
Während du deine Analyse von Nutzerbewertungen fortsetzt, ist dir aufgefallen, dass Stemming manchmal nicht standardisierte Wörter wie „fli“ aus „flying“ erzeugt, was die Interpretierbarkeit verringern kann. Um dem entgegenzuwirken, verwendest du jetzt Lemmatisierung, die echte Wörter zurückgibt und die Klarheit und Genauigkeit deiner Analyse verbessert.
WordNetLemmatizer wurde importiert, stop_words ist definiert, und die erforderlichen NLTK-Ressourcen wurden heruntergeladen.
Diese Übung ist Teil des Kurses
Natural Language Processing (NLP) in Python
Anleitung zur Übung
- Erstelle eine Instanz
lemmatizerder KlasseWordNetLemmatizer(). - Verwende den
lemmatizer, um dielower_tokenszu lemmatisieren.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
clean_tokens = ['flying', 'lot', 'lately', 'flights', 'keep', 'getting', 'delayed', 'honestly', 'traveling', 'work', 'gets', 'exhausting', 'endless', 'delays', 'every', 'travel', 'teaches', 'something', 'new']
# Create lemmatizer
lemmatizer = ____()
# Lemmatize each token
lemmatized_tokens = [____.____(____) for ____ in clean_tokens]
print(lemmatized_tokens)