Kleinschreibung
Du analysierst Nutzerbewertungen für eine Reise-Website. Diese Bewertungen haben oft Probleme mit der Großschreibung, wie zum Beispiel „ "TRAVEL" “ und „ "travel" “. Um den Text für die Sentimentanalyse und die Themenerkennung vorzubereiten, musst du erst mal alle Wörter klein schreiben, dann tokenisieren und Stopwörter und Satzzeichen rausnehmen.
Die Funktion „ word_tokenize() ” und eine Liste „ stop_words ” wurden bereitgestellt. Die NLTK-Ressourcen sind schon runtergeladen.
Diese Übung ist Teil des Kurses
Natürliche Sprachverarbeitung (NLP) in Python
Anleitung zur Übung
- Wandle die übergebene Zeichenfolge „
review“ in Kleinbuchstaben um. - Tokenisiere den Text „
lower_text“ in Wörter. - Verwende Listenkomprimierung, um Stoppwörter und Satzzeichen mithilfe der Listen „
stop_words“ und „string.punctuation“ zu entfernen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"
# Lowercase the review
lower_text = ____
# Tokenize the lower_text into words
tokens = ____
# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]
print(clean_tokens)