CommencerCommencer gratuitement

Mise en minuscules

Vous analysez les avis des utilisateurs d'un site Web de voyage. Ces avis comportent souvent des majuscules incohérentes, comme « "TRAVEL" » et « "travel" ». Pour préparer le texte en vue de l'analyse des sentiments et de l'extraction de sujets, vous devez d'abord convertir tous les mots en minuscules, puis les tokeniser et les nettoyer en supprimant les mots vides et la ponctuation.

La fonction d'word_tokenize(), une liste d'stop_words, a été fournie. Les ressources NLTK sont déjà téléchargées.

Cet exercice fait partie du cours

Traitement du langage naturel (NLP) en Python

Afficher le cours

Instructions

  • Veuillez convertir l'review fournie en minuscules.
  • Transformez l'lower_text s en mots.
  • Utilisez la compréhension de liste pour supprimer les mots vides et la ponctuation à l'aide des listes disponibles aux adresses stop_words et string.punctuation.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"

# Lowercase the review
lower_text = ____

# Tokenize the lower_text into words
tokens = ____

# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]

print(clean_tokens)
Modifier et exécuter le code