LoslegenKostenlos loslegen

Kleinschreibung

Du analysierst Nutzerbewertungen für eine Reise-Website. Diese Reviews enthalten oft uneinheitliche Groß-/Kleinschreibung wie "TRAVEL" und "travel". Um den Text für Stimmungsanalyse und Themauswertung aufzubereiten, wandelst du zuerst alle Wörter in Kleinbuchstaben um, tokenisierst sie und entfernst anschließend Stoppwörter und Satzzeichen.

Die Funktion word_tokenize() und eine Liste stop_words sind bereitgestellt. NLTK-Ressourcen sind bereits heruntergeladen.

Diese Übung ist Teil des Kurses

Natural Language Processing (NLP) in Python

Kurs anzeigen

Anleitung zur Übung

  • Wandle die bereitgestellte review in Kleinbuchstaben um.
  • Tokenisiere lower_text in Wörter.
  • Verwende eine List Comprehension, um Stoppwörter und Satzzeichen mit den Listen stop_words und string.punctuation zu entfernen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"

# Lowercase the review
lower_text = ____

# Tokenize the lower_text into words
tokens = ____

# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]

print(clean_tokens)
Code bearbeiten und ausführen