CommencerCommencer gratuitement

La tokenisation des mots à l'aide de NLTK

Ici, vous utiliserez la première scène de Monty Python's Holy Grail, qui a été préchargée sur scene_one. N'hésitez pas à le vérifier dans le shell IPython !

Votre tâche dans cet exercice consiste à utiliser word_tokenize et sent_tokenize à partir de nltk.tokenize afin d'identifier des mots et des phrases à partir de chaînes Python - dans ce cas, la première scène de Python's Holy Grail.

Cet exercice fait partie du cours

Introduction au traitement du langage naturel en Python

Afficher le cours

Instructions

  • Importez les fonctions sent_tokenize et word_tokenize à partir de nltk.tokenize.
  • Tokenisez toutes les phrases de scene_one à l'aide de la fonction sent_tokenize().
  • Tokenisez la quatrième phrase de sentences, à laquelle vous pouvez accéder en tant que sentences[3], à l'aide de la fonction word_tokenize().
  • Trouvez les jetons uniques dans toute la scène en utilisant word_tokenize() sur scene_one et en les convertissant en un ensemble à l'aide de set().
  • Imprimez les jetons uniques trouvés. Cela a été fait pour vous, alors cliquez sur "Soumettre la réponse" pour voir les résultats !

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import necessary modules
____
____

# Split scene_one into sentences: sentences
sentences = ____(____)

# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])

# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))

# Print the unique tokens result
print(unique_tokens)
Modifier et exécuter le code