Stoppwörter löschen
Du arbeitest an einem Projekt, bei dem du Feedback von Nutzern in verschiedene Kategorien wie „Produktprobleme“, „Serviceprobleme“ und „Vorschläge“ einsortieren musst. Oft haben Stoppwörter nicht viel Bedeutung, wenn es darum geht, Kategorien zu unterscheiden. Deine Aufgabe ist es, diese Stoppwörter zu entfernen, um dich auf die wichtigen Wörter zu konzentrieren, die einer Maschine später dabei helfen, das Feedback den richtigen Themen zuzuordnen.
Die Funktionen „ word_tokenize
“ aus „ nltk.tokenize
“ und „ stopwords.words
“ aus „ nltk.corpus
“ wurden für dich importiert. Außerdem wurden die NLTK-Ressourcen punkt_tab
und stopwords
schon runtergeladen.
Diese Übung ist Teil des Kurses
Natürliche Sprachverarbeitung (NLP) in Python
Anleitung zur Übung
- Das Feedback in Worte fassen.
- Hol dir die Liste der englischen Stoppwörter.
- Entferne englische Stoppwörter und speicher das Ergebnis in „
filtered_tokens
“.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
feedback = "I reached out to support and got a helpful response within minutes!!! Very #impressed"
# Tokenize the text
tokens = word_tokenize(____)
# Get the list of English stop words
stop_words = stopwords.____('____')
# Remove stop words
filtered_tokens = [____ for word in tokens if ____.lower() not in ____]
print(filtered_tokens)