Kleinschreibung
Du analysierst Nutzerbewertungen für eine Reise-Website. Diese Bewertungen haben oft Probleme mit der Großschreibung, wie zum Beispiel „ "TRAVEL"
“ und „ "travel"
“. Um den Text für die Sentimentanalyse und die Themenerkennung vorzubereiten, musst du erst mal alle Wörter klein schreiben, dann tokenisieren und Stopwörter und Satzzeichen rausnehmen.
Die Funktion „ word_tokenize()
” und eine Liste „ stop_words
” wurden bereitgestellt. Die NLTK-Ressourcen sind schon runtergeladen.
Diese Übung ist Teil des Kurses
Natürliche Sprachverarbeitung (NLP) in Python
Anleitung zur Übung
- Wandle die übergebene Zeichenfolge „
review
“ in Kleinbuchstaben um. - Tokenisiere den Text „
lower_text
“ in Wörter. - Verwende Listenkomprimierung, um Stoppwörter und Satzzeichen mithilfe der Listen „
stop_words
“ und „string.punctuation
“ zu entfernen.
Interaktive Übung
Vervollständige den Beispielcode, um diese Übung erfolgreich abzuschließen.
review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"
# Lowercase the review
lower_text = ____
# Tokenize the lower_text into words
tokens = ____
# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]
print(clean_tokens)