LoslegenKostenlos loslegen

Kleinschreibung

Du analysierst Nutzerbewertungen für eine Reise-Website. Diese Bewertungen haben oft Probleme mit der Großschreibung, wie zum Beispiel „ "TRAVEL" “ und „ "travel" “. Um den Text für die Sentimentanalyse und die Themenerkennung vorzubereiten, musst du erst mal alle Wörter klein schreiben, dann tokenisieren und Stopwörter und Satzzeichen rausnehmen.

Die Funktion „ word_tokenize() ” und eine Liste „ stop_words ” wurden bereitgestellt. Die NLTK-Ressourcen sind schon runtergeladen.

Diese Übung ist Teil des Kurses

Natürliche Sprachverarbeitung (NLP) in Python

Kurs anzeigen

Anleitung zur Übung

  • Wandle die übergebene Zeichenfolge „ review “ in Kleinbuchstaben um.
  • Tokenisiere den Text „ lower_text “ in Wörter.
  • Verwende Listenkomprimierung, um Stoppwörter und Satzzeichen mithilfe der Listen „ stop_words “ und „ string.punctuation “ zu entfernen.

Interaktive Übung

Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.

review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"

# Lowercase the review
lower_text = ____

# Tokenize the lower_text into words
tokens = ____

# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]

print(clean_tokens)
Code bearbeiten und ausführen