Tokeniser une chaîne issue de GoT
Lorsqu’on travaille avec du texte, une première étape classique consiste à le tokeniser, c’est-à-dire à découper une longue chaîne en chaînes individuelles, généralement des mots (tokens).
Une chaîne GoT a été créée pour vous et contient une citation de Game of Thrones de George R. R. Martin. Votre tâche est de la découper en tokens individuels.
Cet exercice fait partie du cours
Analyse de sentiments en Python
Instructions
- Importez la fonction de tokenisation des mots depuis
nltk. - Transformez la chaîne
GoTen tokens de mots.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Import the required function
from nltk import ____
# Transform the GoT string to word tokens
print(____(____))