CommencerCommencer gratuitement

Tokenisation de phrases avec Keras

Ici, vous pourrez vous familiariser avec l'Tokenizer Keras. L'Tokenizer Keras est un outil très pratique qui vous permet d'effectuer des opérations essentielles de traitement de texte à l'aide de quelques lignes de code. Par exemple, Keras Tokenizer mappera automatiquement les mots de votre vocabulaire à des identifiants à l'aide d'un seul appel de fonction. Vous trouverez ici de plus amples informations à ce sujet.

Vous allez créer un objet Keras « Tokenizer » et l'adapter à un texte, ce qui permettra à l'Tokenizer de créer un dictionnaire de mots et leurs identifiants correspondants. Le texte utilisé pour former l'Tokenizer, est obtenu à partir du dépôt GitHub Udacity.

Cet exercice fait partie du cours

Traduction automatique avec Keras

Afficher le cours

Instructions

  • Définissez un objet Keras Tokenizer.
  • Installez le tokenizer sur en_text.
  • Obtenez l'ID de chaque mot w dans la liste suivante ["january", "apples", "summer"].
  • Veuillez imprimer le mot et son identifiant correspondant.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from tensorflow.keras.preprocessing.text import Tokenizer

# Define a Keras Tokenizer
en_tok = ____

# Fit the tokenizer on some text
en_tok.____(____)

for w in ["january", "apples", "summer"]:
  # Get the word ID of word w
  id = en_tok.____[____]
  # Print the word and the word ID
  print(____, " has id: ", _____)
Modifier et exécuter le code