Stemming
Nachdem du den review-Text bereinigt und Stoppwörter sowie Satzzeichen entfernt hast, kannst du die übrigen Wörter nun mit Stemming normalisieren, um sie auf ihre Wortwurzel zu reduzieren. So lassen sich ähnliche Wörter zusammenfassen, was deine Analyse konsistenter und effizienter macht.
Die Klasse PorterStemmer wurde bereitgestellt, ebenso eine Liste von clean_tokens.
Diese Übung ist Teil des Kurses
<Kurs>Natural Language Processing (NLP) in Python</Kurs>Übungsanweisungen
- Initialisiere den
PorterStemmer(). - Verwende eine List Comprehension, um jedes Token aus der Liste
clean_tokenszu reduzieren.
Interaktive praktische Übung
Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.
clean_tokens = ['flying', 'lot', 'lately', 'flights', 'keep', 'getting', 'delayed', 'honestly', 'traveling', 'work', 'gets', 'exhausting', 'endless', 'delays', 'every', 'travel', 'teaches', 'something', 'new']
# Create stemmer
stemmer = ____()
# Stem each token
stemmed_tokens = [____.____(____) for ____ in clean_tokens]
print(stemmed_tokens)