Stoppwörter entfernen
Du arbeitest an einem Projekt, in dem Nutzerfeedback in verschiedene Kategorien wie „Produktprobleme“, „Serviceprobleme“ und „Vorschläge“ klassifiziert werden soll. Oft tragen Stoppwörter wenig dazu bei, diese Kategorien zu unterscheiden. Deine Aufgabe ist es, diese Stoppwörter zu entfernen, damit du dich auf die wichtigen Wörter konzentrieren kannst, mit denen eine Maschine das Feedback später den richtigen Themen zuordnet.
Die Funktionen word_tokenize aus nltk.tokenize und stopwords.words aus nltk.corpus wurden bereits für dich importiert. Außerdem wurden die NLTK-Ressourcen punkt_tab und stopwords schon heruntergeladen.
Diese Übung ist Teil des Kurses
Natural Language Processing (NLP) in Python
Anleitung zur Übung
- Tokenisiere das bereitgestellte Feedback in Wörter.
- Hole die Liste der englischen Stoppwörter.
- Entferne die englischen Stoppwörter und speichere das Ergebnis in
filtered_tokens.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
feedback = "I reached out to support and got a helpful response within minutes!!! Very #impressed"
# Tokenize the text
tokens = word_tokenize(____)
# Get the list of English stop words
stop_words = stopwords.____('____')
# Remove stop words
filtered_tokens = [____ for word in tokens if ____.lower() not in ____]
print(filtered_tokens)