Tokenisation de phrases avec Keras

Ici, vous pourrez vous familiariser avec l'Tokenizer Keras. L'Tokenizer Keras est un outil très pratique qui vous permet d'effectuer des opérations essentielles de traitement de texte à l'aide de quelques lignes de code. Par exemple, Keras Tokenizer mappera automatiquement les mots de votre vocabulaire à des identifiants à l'aide d'un seul appel de fonction. Vous trouverez ici de plus amples informations à ce sujet.

Vous allez créer un objet Keras « Tokenizer » et l'adapter à un texte, ce qui permettra à l'Tokenizer de créer un dictionnaire de mots et leurs identifiants correspondants. Le texte utilisé pour former l'Tokenizer, est obtenu à partir du dépôt GitHub Udacity.

Cet exercice fait partie du cours

<cours>Traduction automatique avec Keras</cours>

Voir le cours

Instructions de l’exercice

Définissez un objet Keras Tokenizer.
Installez le tokenizer sur en_text.
Obtenez l'ID de chaque mot w dans la liste suivante ["january", "apples", "summer"].
Veuillez imprimer le mot et son identifiant correspondant.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

from tensorflow.keras.preprocessing.text import Tokenizer

# Define a Keras Tokenizer
en_tok = ____

# Fit the tokenizer on some text
en_tok.____(____)

for w in ["january", "apples", "summer"]:
  # Get the word ID of word w
  id = en_tok.____[____]
  # Print the word and the word ID
  print(____, " has id: ", _____)

Modifier et exécuter le code