Stoppwörter entfernen

Du arbeitest an einem Projekt, in dem Nutzerfeedback in verschiedene Kategorien wie „Produktprobleme“, „Serviceprobleme“ und „Vorschläge“ klassifiziert werden soll. Oft tragen Stoppwörter wenig dazu bei, diese Kategorien zu unterscheiden. Deine Aufgabe ist es, diese Stoppwörter zu entfernen, damit du dich auf die wichtigen Wörter konzentrieren kannst, mit denen eine Maschine das Feedback später den richtigen Themen zuordnet.

Die Funktionen word_tokenize aus nltk.tokenize und stopwords.words aus nltk.corpus wurden bereits für dich importiert. Außerdem wurden die NLTK-Ressourcen punkt_tab und stopwords schon heruntergeladen.

Diese Übung ist Teil des Kurses

<Kurs>Natural Language Processing (NLP) in Python</Kurs>

Übungsanweisungen

Tokenisiere das bereitgestellte Feedback in Wörter.
Hole die Liste der englischen Stoppwörter.
Entferne die englischen Stoppwörter und speichere das Ergebnis in filtered_tokens.

Interaktive praktische Übung

Versuche dich an dieser Übung, indem du diesen Beispielcode vervollständigst.

feedback = "I reached out to support and got a helpful response within minutes!!! Very #impressed"

# Tokenize the text
tokens = word_tokenize(____)

# Get the list of English stop words
stop_words = stopwords.____('____')

# Remove stop words 
filtered_tokens = [____ for word in tokens if ____.lower() not in ____]

print(filtered_tokens)

Code bearbeiten und ausführen

Diese Übung ist Teil des Kurses

<Kurs>Natural Language Processing (NLP) in Python</Kurs>

Mittlere SchwierigkeitSchwierigkeitsgrad

4.9+

Kurs kostenlos starten

Lerne die Grundlagen der Textverarbeitung im Natural Language Processing (NLP). Beherrsche Techniken wie Tokenisierung, das Entfernen von Stoppwörtern und Satzzeichen sowie die Normalisierung von Text durch Kleinschreibung, Stemming und Lemmatisierung, um Textdaten für weitere Analysen und Erkenntnisse aufzubereiten.

Exercise 1: Einführung in die Verarbeitung natürlicher Sprache Exercise 2: Satz- und Wort-Tokenisierung Exercise 3: NLP-Workflow Exercise 4: Umgang mit Stoppwörtern und Satzzeichen Exercise 5: Stoppwörter entfernen

Aktuelle Übung

Exercise 6: Satzzeichen entfernen Exercise 7: Techniken der Textnormalisierung Exercise 8: Kleinschreibung Exercise 9: Stemming Exercise 10: Lemmatisierung

Wandle Rohtext in aussagekräftige numerische Merkmale um. Erstelle Bag-of-Words- und TF-IDF-Repräsentationen, um die Wichtigkeit von Wörtern über Dokumente hinweg zu erfassen, und erkunde anschließend Wort-Embeddings wie Word2Vec und GloVe, um tiefere semantische Muster sichtbar zu machen. Visualisiere Häufigkeit, Relevanz und Ähnlichkeit, um deine Textdaten zum Leben zu erwecken.

Exercise 1: Bag-of-Words-Darstellung Exercise 2: Wortschatz aus Kundenrezensionen aufbauen Exercise 3: Text mit BoW in Zahlen umwandeln Exercise 4: Häufigkeitsanalyse von Produktbewertungen Exercise 5: Worthäufigkeiten visualisieren Exercise 6: TF-IDF-Vektorisierung Exercise 7: TF-IDF-Darstellung von Produktfeedback Exercise 8: BoW- und TF-IDF-Repräsentationen vergleichen Exercise 9: Embeddings Exercise 10: Wortbeziehungen mit Embeddings erkunden Exercise 11: Wort-Embeddings visualisieren und vergleichen

Nutze die Stärke vortrainierter Modelle, um anspruchsvolle Textklassifikationsaufgaben zu lösen. Verwende Hugging Face Pipelines für Sentiment-Analyse, Themenklassifikation und Natural Language Inference. Bewerte semantische Ähnlichkeit und grammatische Korrektheit mit State-of-the-Art-Modellen – ganz ohne alles von Grund auf neu zu bauen.

Exercise 1: Hugging Face-Pipelines für Sentimentanalyse Exercise 2: Die Stimmung einer Rezension analysieren Exercise 3: Mehrere Rezensionen im Batch klassifizieren Exercise 4: Modelle mit gelabelten Review-Daten vergleichen Exercise 5: Zero-shot-Klassifikation und QNLI Exercise 6: Zero-shot-Klassifikation von Support-Tickets Exercise 7: Beantwortet der Text die Frage?Exercise 8: Frageähnlichkeit und grammatische Korrektheit Exercise 9: Doppelte Fragen erkennen Exercise 10: Grammatikalische Korrektheit überprüfen

Tauche in den Kern moderner NLP-Anwendungen mit Token-Klassifikation und Textgenerierung ein. Lerne, mit NER und PoS-Tagging bedeutungsvolle Entitäten und grammatische Strukturen zu extrahieren. Beherrsche sowohl extraktives als auch abstraktives Question Answering und erkunde fortgeschrittene Generierungsaufgaben wie Zusammenfassung, Übersetzung und Language Modeling mit Hugging Face Pipelines.

Exercise 1: Token-Klassifikation Exercise 2: Benannte Entitäten in Nachrichtenüberschriften erkennen Exercise 3: Part-of-Speech-Tagging für Textanalyse Exercise 4: Question Answering Exercise 5: Fragen aus Produktbeschreibungen beantworten Exercise 6: Natürliche Antworten mit abstraktivem QA erzeugen Exercise 7: Aufgaben zur Sequenzgenerierung Exercise 8: Nachrichtenartikel für schnelle Einblicke zusammenfassen Exercise 9: Kundenrezensionen ins Französische übersetzen Exercise 10: Ein System zur Suchvervollständigung bauen Exercise 11: Glückwunsch