Kleinschreibung
Du analysierst Nutzerbewertungen für eine Reise-Website. Diese Reviews enthalten oft uneinheitliche Groß-/Kleinschreibung wie "TRAVEL" und "travel". Um den Text für Stimmungsanalyse und Themauswertung aufzubereiten, wandelst du zuerst alle Wörter in Kleinbuchstaben um, tokenisierst sie und entfernst anschließend Stoppwörter und Satzzeichen.
Die Funktion word_tokenize() und eine Liste stop_words sind bereitgestellt. NLTK-Ressourcen sind bereits heruntergeladen.
Diese Übung ist Teil des Kurses
Natural Language Processing (NLP) in Python
Anleitung zur Übung
- Wandle die bereitgestellte
reviewin Kleinbuchstaben um. - Tokenisiere
lower_textin Wörter. - Verwende eine List Comprehension, um Stoppwörter und Satzzeichen mit den Listen
stop_wordsundstring.punctuationzu entfernen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"
# Lowercase the review
lower_text = ____
# Tokenize the lower_text into words
tokens = ____
# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]
print(clean_tokens)