Aan de slagGa gratis aan de slag

Kleine letters (lowercasing)

Je analyseert gebruikersreviews voor een reiswebsite. Deze reviews bevatten vaak inconsistente hoofdlettergebruik zoals "TRAVEL" en "travel". Om de tekst voor te bereiden op sentimentanalyse en topic-extractie, zet je eerst alle woorden om naar kleine letters, daarna tokeniseer je ze en verwijder je stopwoorden en leestekens.

De functie word_tokenize() en een lijst stop_words zijn al beschikbaar. NLTK-resources zijn al gedownload.

Deze oefening maakt deel uit van de cursus

Natural Language Processing (NLP) in Python

Cursus bekijken

Oefeninstructies

  • Zet de gegeven review om naar kleine letters.
  • Tokeniseer de lower_text in woorden.
  • Gebruik een list comprehension om stopwoorden en leestekens te verwijderen met de lijsten stop_words en string.punctuation.

Praktische interactieve oefening

Probeer deze oefening eens door deze voorbeeldcode in te vullen.

review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"

# Lowercase the review
lower_text = ____

# Tokenize the lower_text into words
tokens = ____

# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]

print(clean_tokens)
Code bewerken en uitvoeren