La tokenisation des mots à l'aide de NLTK
Ici, vous utiliserez la première scène de Monty Python's Holy Grail, qui a été préchargée sur scene_one
. N'hésitez pas à le vérifier dans le shell IPython !
Votre tâche dans cet exercice consiste à utiliser word_tokenize
et sent_tokenize
à partir de nltk.tokenize
afin d'identifier des mots et des phrases à partir de chaînes Python - dans ce cas, la première scène de Python's Holy Grail.
Cet exercice fait partie du cours
Introduction au traitement du langage naturel en Python
Instructions
- Importez les fonctions
sent_tokenize
etword_tokenize
à partir denltk.tokenize
. - Tokenisez toutes les phrases de
scene_one
à l'aide de la fonctionsent_tokenize()
. - Tokenisez la quatrième phrase de
sentences
, à laquelle vous pouvez accéder en tant quesentences[3]
, à l'aide de la fonctionword_tokenize()
. - Trouvez les jetons uniques dans toute la scène en utilisant
word_tokenize()
surscene_one
et en les convertissant en un ensemble à l'aide deset()
. - Imprimez les jetons uniques trouvés. Cela a été fait pour vous, alors cliquez sur "Soumettre la réponse" pour voir les résultats !
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import necessary modules
____
____
# Split scene_one into sentences: sentences
sentences = ____(____)
# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])
# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))
# Print the unique tokens result
print(unique_tokens)