La tokenisation des mots à l'aide de NLTK

Ici, vous utiliserez la première scène de Monty Python's Holy Grail, qui a été préchargée sur scene_one. N'hésitez pas à le vérifier dans le shell IPython !

Votre tâche dans cet exercice consiste à utiliser word_tokenize et sent_tokenize à partir de nltk.tokenize afin d'identifier des mots et des phrases à partir de chaînes Python - dans ce cas, la première scène de Python's Holy Grail.

Cet exercice fait partie du cours

Introduction au traitement du langage naturel en Python

Afficher le cours

Instructions

Importez les fonctions sent_tokenize et word_tokenize à partir de nltk.tokenize.
Tokenisez toutes les phrases de scene_one à l'aide de la fonction sent_tokenize().
Tokenisez la quatrième phrase de sentences, à laquelle vous pouvez accéder en tant que sentences[3], à l'aide de la fonction word_tokenize().
Trouvez les jetons uniques dans toute la scène en utilisant word_tokenize() sur scene_one et en les convertissant en un ensemble à l'aide de set().
Imprimez les jetons uniques trouvés. Cela a été fait pour vous, alors cliquez sur "Soumettre la réponse" pour voir les résultats !

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import necessary modules
____
____

# Split scene_one into sentences: sentences
sentences = ____(____)

# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])

# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))

# Print the unique tokens result
print(unique_tokens)

Modifier et exécuter le code