LoslegenKostenlos loslegen

Übung zur Textvorverarbeitung

Jetzt bist du dran: Wende die gelernten Techniken an, um Text für bessere NLP-Ergebnisse zu bereinigen. Du musst dafür Stoppwörter und nicht-alphabetische Zeichen entfernen, lemmatisieren und anschließend ein neues Bag-of-Words auf deinem bereinigten Text erstellen.

Du startest mit denselben Tokens wie in der letzten Übung: lower_tokens. Außerdem ist die Klasse Counter bereits importiert.

Diese Übung ist Teil des Kurses

Einführung in Natural Language Processing mit Python

Kurs anzeigen

Anleitung zur Übung

  • Importiere die Klasse WordNetLemmatizer aus nltk.stem.
  • Erstelle eine Liste alpha_only, die nur alphabetische Zeichen enthält. Du kannst dafür die Methode .isalpha() verwenden.
  • Erstelle eine weitere Liste no_stops, die aus Wörtern aus alpha_only besteht, die nicht in english_stops enthalten sind.
  • Initialisiere ein WordNetLemmatizer-Objekt namens wordnet_lemmatizer und verwende die Methode .lemmatize() auf den Tokens in no_stops, um eine neue Liste lemmatized zu erstellen.
  • Erstelle einen neuen Counter namens bow mit den lemmatisierten Wörtern.
  • Gib abschließend die zehn häufigsten Tokens aus.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

# Import WordNetLemmatizer
____

# Retain alphabetic words: alpha_only
alpha_only = [t for t in ____ if ____]

# Remove all stop words: no_stops
no_stops = [t for t in ____ if t not in ____]

# Instantiate the WordNetLemmatizer
wordnet_lemmatizer = ____

# Lemmatize all tokens into a new list: lemmatized
lemmatized = [____ for t in ____]

# Create the bag-of-words: bow
bow = ____(____)

# Print the 10 most common tokens
print(____.____(__))
Code bearbeiten und ausführen