CommencerCommencez gratuitement

Tokeniser une chaîne issue de GoT

Lorsqu’on travaille avec du texte, une première étape classique consiste à le tokeniser, c’est-à-dire à découper une longue chaîne en chaînes individuelles, généralement des mots (tokens).

Une chaîne GoT a été créée pour vous et contient une citation de Game of Thrones de George R. R. Martin. Votre tâche est de la découper en tokens individuels.

Cet exercice fait partie du cours

<cours>Analyse de sentiments en Python</cours>
Voir le cours

Instructions de l’exercice

  • Importez la fonction de tokenisation des mots depuis nltk.
  • Transformez la chaîne GoT en tokens de mots.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Import the required function
from nltk import ____

# Transform the GoT string to word tokens
print(____(____))
Modifier et exécuter le code