Mise en minuscules
Vous analysez les avis des utilisateurs d'un site Web de voyage. Ces avis comportent souvent des majuscules incohérentes, comme « "TRAVEL"
» et « "travel"
». Pour préparer le texte en vue de l'analyse des sentiments et de l'extraction de sujets, vous devez d'abord convertir tous les mots en minuscules, puis les tokeniser et les nettoyer en supprimant les mots vides et la ponctuation.
La fonction d'word_tokenize()
, une liste d'stop_words
, a été fournie. Les ressources NLTK sont déjà téléchargées.
Cet exercice fait partie du cours
Traitement du langage naturel (NLP) en Python
Instructions
- Veuillez convertir l'
review
fournie en minuscules. - Transformez l'
lower_text
s en mots. - Utilisez la compréhension de liste pour supprimer les mots vides et la ponctuation à l'aide des listes disponibles aux adresses
stop_words
etstring.punctuation
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"
# Lowercase the review
lower_text = ____
# Tokenize the lower_text into words
tokens = ____
# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]
print(clean_tokens)