CommencerCommencer gratuitement

Tokenisation des mots avec NLTK

Ici, vous allez utiliser la première scène de Monty Python: Sacré Graal, déjà chargée dans la variable scene_one. N’hésitez pas à l’examiner dans l’IPython Shell !

Votre objectif dans cet exercice est d’utiliser word_tokenize et sent_tokenize de nltk.tokenize pour segmenter en mots et en phrases des chaînes de caractères Python — ici, la première scène de Monty Python: Sacré Graal.

Cet exercice fait partie du cours

Introduction au Natural Language Processing (NLP) en Python

Afficher le cours

Instructions

  • Importez les fonctions sent_tokenize et word_tokenize depuis nltk.tokenize.
  • Segmentez toutes les phrases de scene_one avec la fonction sent_tokenize().
  • Segmentez en mots la quatrième phrase de sentences, accessible via sentences[3], en utilisant la fonction word_tokenize().
  • Trouvez les tokens uniques de toute la scène en appliquant word_tokenize() à scene_one, puis en convertissant le résultat en ensemble avec set().
  • Affichez les tokens uniques trouvés. Cela a été fait pour vous : cliquez sur "Soumettre la réponse" pour voir les résultats !

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import necessary modules
____
____

# Split scene_one into sentences: sentences
sentences = ____(____)

# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])

# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))

# Print the unique tokens result
print(unique_tokens)
Modifier et exécuter le code