Kleine letters (lowercasing)
Je analyseert gebruikersreviews voor een reiswebsite. Deze reviews bevatten vaak inconsistente hoofdlettergebruik zoals "TRAVEL" en "travel". Om de tekst voor te bereiden op sentimentanalyse en topic-extractie, zet je eerst alle woorden om naar kleine letters, daarna tokeniseer je ze en verwijder je stopwoorden en leestekens.
De functie word_tokenize() en een lijst stop_words zijn al beschikbaar. NLTK-resources zijn al gedownload.
Deze oefening maakt deel uit van de cursus
Natural Language Processing (NLP) in Python
Oefeninstructies
- Zet de gegeven
reviewom naar kleine letters. - Tokeniseer de
lower_textin woorden. - Gebruik een list comprehension om stopwoorden en leestekens te verwijderen met de lijsten
stop_wordsenstring.punctuation.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"
# Lowercase the review
lower_text = ____
# Tokenize the lower_text into words
tokens = ____
# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]
print(clean_tokens)