Tokenisation des mots avec NLTK
Ici, vous allez utiliser la première scène de Monty Python: Sacré Graal, déjà chargée dans la variable scene_one. N’hésitez pas à l’examiner dans l’IPython Shell !
Votre objectif dans cet exercice est d’utiliser word_tokenize et sent_tokenize de nltk.tokenize pour segmenter en mots et en phrases des chaînes de caractères Python — ici, la première scène de Monty Python: Sacré Graal.
Cet exercice fait partie du cours
Introduction au Natural Language Processing (NLP) en Python
Instructions
- Importez les fonctions
sent_tokenizeetword_tokenizedepuisnltk.tokenize. - Segmentez toutes les phrases de
scene_oneavec la fonctionsent_tokenize(). - Segmentez en mots la quatrième phrase de
sentences, accessible viasentences[3], en utilisant la fonctionword_tokenize(). - Trouvez les tokens uniques de toute la scène en appliquant
word_tokenize()àscene_one, puis en convertissant le résultat en ensemble avecset(). - Affichez les tokens uniques trouvés. Cela a été fait pour vous : cliquez sur "Soumettre la réponse" pour voir les résultats !
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import necessary modules
____
____
# Split scene_one into sentences: sentences
sentences = ____(____)
# Use word_tokenize to tokenize the fourth sentence: tokenized_sent
tokenized_sent = ____(____[_])
# Make a set of unique tokens in the entire scene: unique_tokens
unique_tokens = ____(____(____))
# Print the unique tokens result
print(unique_tokens)