Stemming
Nachdem du den review-Text bereinigt und Stoppwörter sowie Satzzeichen entfernt hast, kannst du die übrigen Wörter nun mit Stemming normalisieren, um sie auf ihre Wortwurzel zu reduzieren. So lassen sich ähnliche Wörter zusammenfassen, was deine Analyse konsistenter und effizienter macht.
Die Klasse PorterStemmer wurde bereitgestellt, ebenso eine Liste von clean_tokens.
Diese Übung ist Teil des Kurses
Natural Language Processing (NLP) in Python
Anleitung zur Übung
- Initialisiere den
PorterStemmer(). - Verwende eine List Comprehension, um jedes Token aus der Liste
clean_tokenszu reduzieren.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
clean_tokens = ['flying', 'lot', 'lately', 'flights', 'keep', 'getting', 'delayed', 'honestly', 'traveling', 'work', 'gets', 'exhausting', 'endless', 'delays', 'every', 'travel', 'teaches', 'something', 'new']
# Create stemmer
stemmer = ____()
# Stem each token
stemmed_tokens = [____.____(____) for ____ in clean_tokens]
print(stemmed_tokens)