Lemmatisierung
Während du die Nutzerbewertungen weiter analysiert hast, ist dir aufgefallen, dass beim Stemming manchmal nicht standardmäßige Wörter wie „fli” aus „flying” entstehen, was die Interpretierbarkeit beeinträchtigen kann. Um das zu klären, kannst du jetzt die Lemmatisierung nutzen, die dir die eigentlichen Wörter zurückgibt und so die Klarheit und Genauigkeit deiner Analyse verbessert.
WordNetLemmatizer
wurde importiert, „ stop_words
” wurde definiert und die benötigten NLTK-Ressourcen wurden runtergeladen.
Diese Übung ist Teil des Kurses
Natürliche Sprachverarbeitung (NLP) in Python
Anleitung zur Übung
- Erstell eine Instanz „
lemmatizer
“ der Klasse „WordNetLemmatizer()
“. - Verwende das „
lemmatizer
“, um „lower_tokens
“ zu lemmatisieren.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
clean_tokens = ['flying', 'lot', 'lately', 'flights', 'keep', 'getting', 'delayed', 'honestly', 'traveling', 'work', 'gets', 'exhausting', 'endless', 'delays', 'every', 'travel', 'teaches', 'something', 'new']
# Create lemmatizer
lemmatizer = ____()
# Lemmatize each token
lemmatized_tokens = [____.____(____) for ____ in clean_tokens]
print(lemmatized_tokens)