Tokenisation de phrases avec Keras
Ici, vous pourrez vous familiariser avec l'Tokenizer
Keras. L'Tokenizer
Keras est un outil très pratique qui vous permet d'effectuer des opérations essentielles de traitement de texte à l'aide de quelques lignes de code. Par exemple, Keras Tokenizer
mappera automatiquement les mots de votre vocabulaire à des identifiants à l'aide d'un seul appel de fonction. Vous trouverez ici de plus amples informations à ce sujet.
Vous allez créer un objet Keras « Tokenizer
» et l'adapter à un texte, ce qui permettra à l'Tokenizer
de créer un dictionnaire de mots et leurs identifiants correspondants. Le texte utilisé pour former l'Tokenizer
, est obtenu à partir du dépôt GitHub Udacity.
Cet exercice fait partie du cours
Traduction automatique avec Keras
Instructions
- Définissez un objet Keras Tokenizer.
- Installez le tokenizer sur
en_text
. - Obtenez l'ID de chaque mot
w
dans la liste suivante["january", "apples", "summer"]
. - Veuillez imprimer le mot et son identifiant correspondant.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
from tensorflow.keras.preprocessing.text import Tokenizer
# Define a Keras Tokenizer
en_tok = ____
# Fit the tokenizer on some text
en_tok.____(____)
for w in ["january", "apples", "summer"]:
# Get the word ID of word w
id = en_tok.____[____]
# Print the word and the word ID
print(____, " has id: ", _____)