LoslegenKostenlos loslegen

Stoppwörter entfernen

Du arbeitest an einem Projekt, in dem Nutzerfeedback in verschiedene Kategorien wie „Produktprobleme“, „Serviceprobleme“ und „Vorschläge“ klassifiziert werden soll. Oft tragen Stoppwörter wenig dazu bei, diese Kategorien zu unterscheiden. Deine Aufgabe ist es, diese Stoppwörter zu entfernen, damit du dich auf die wichtigen Wörter konzentrieren kannst, mit denen eine Maschine das Feedback später den richtigen Themen zuordnet.

Die Funktionen word_tokenize aus nltk.tokenize und stopwords.words aus nltk.corpus wurden bereits für dich importiert. Außerdem wurden die NLTK-Ressourcen punkt_tab und stopwords schon heruntergeladen.

Diese Übung ist Teil des Kurses

Natural Language Processing (NLP) in Python

Kurs anzeigen

Anleitung zur Übung

  • Tokenisiere das bereitgestellte Feedback in Wörter.
  • Hole die Liste der englischen Stoppwörter.
  • Entferne die englischen Stoppwörter und speichere das Ergebnis in filtered_tokens.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

feedback = "I reached out to support and got a helpful response within minutes!!! Very #impressed"

# Tokenize the text
tokens = word_tokenize(____)

# Get the list of English stop words
stop_words = stopwords.____('____')

# Remove stop words 
filtered_tokens = [____ for word in tokens if ____.lower() not in ____]

print(filtered_tokens)
Code bearbeiten und ausführen