CommencerCommencer gratuitement

Mise en minuscules

Vous analysez des avis d’utilisateurs pour un site de voyage. Ces avis contiennent souvent des capitalisations incohérentes comme "TRAVEL" et "travel". Pour préparer le texte à l’analyse de sentiments et à l’extraction de sujets, vous allez d’abord convertir tous les mots en minuscules, puis les tokenizer et supprimer les stop words et la ponctuation.

La fonction word_tokenize() et une liste stop_words sont fournies. Les ressources NLTK sont déjà téléchargées.

Cet exercice fait partie du cours

Natural Language Processing (NLP) in Python

Afficher le cours

Instructions

  • Convertissez le review fourni en minuscules.
  • Tokenisez lower_text en mots.
  • Utilisez une compréhension de liste pour supprimer les stop words et la ponctuation à l’aide des listes stop_words et string.punctuation.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

review = "I have been FLYING a lot lately and the Flights just keep getting DELAYED. Honestly, traveling for WORK gets exhausting with endless delays, but every trip teaches you something new!"

# Lowercase the review
lower_text = ____

# Tokenize the lower_text into words
tokens = ____

# Remove stop words and punctuation
clean_tokens = [____ if word ____ and word ____]

print(clean_tokens)
Modifier et exécuter le code