Mise en minuscules
Vous analysez des avis d’utilisateurs pour un site de voyage. Ces avis contiennent souvent des capitalisations incohérentes comme "TRAVEL" et "travel". Pour préparer le texte à l’analyse de sentiments et à l’extraction de sujets, vous allez d’abord convertir tous les mots en minuscules, puis les tokenizer et supprimer les stop words et la ponctuation.
La fonction word_tokenize() et une liste stop_words sont fournies. Les ressources NLTK sont déjà téléchargées.
Cet exercice fait partie du cours
Natural Language Processing (NLP) in Python
Instructions
- Convertissez le
reviewfourni en minuscules. - Tokenisez
lower_texten mots. - Utilisez une compréhension de liste pour supprimer les stop words et la ponctuation à l’aide des listes
stop_wordsetstring.punctuation.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"
# Lowercase the review
lower_text = ____
# Tokenize the lower_text into words
tokens = ____
# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]
print(clean_tokens)