Contrôler le vocabulaire avec le tokenizer
Examinons de plus près le fonctionnement de l'Tokenizer
. Dans cet exercice, vous apprendrez à convertir une phrase arbitraire en une séquence à l'aide d'un réseau neuronal neuronal ( Tokenizer
) entraîné. De plus, vous apprendrez à contrôler la taille du vocabulaire de l'Tokenizer
. Vous étudierez également ce qui se passe avec les mots hors vocabulaire (OOV) lorsque vous limitez la taille du vocabulaire d'un système de reconnaissance de mots ( Tokenizer
).
Pour cet exercice, vous disposez de l'en_tok
Tokenizer
que vous avez précédemment mise en œuvre. Le fichier « Tokenizer
» a été importé pour vous.
Cet exercice fait partie du cours
Traduction automatique avec Keras
Instructions
- Veuillez convertir la phrase suivante en une séquence à l'aide du tokenizer
en_tok
:she likes grapefruit , peaches , and lemons .
- Créez un nouveau fichier
Tokenizer
,en_tok_new
avec un vocabulaire de 50 mots et un fichier de mots hors vocabulaireUNK
. - Appliquez le nouveau tokenizer aux données de l
en_text
. - Veuillez convertir la phrase «
she likes grapefruit , peaches , and lemons .
» en une séquence à l'aide de l'en_tok_new
.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Convert the sentence to a word ID sequence
seq = ____.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence: ', seq)
# Define a tokenizer with vocabulary size 50 and oov_token 'UNK'
en_tok_new = ____(num_words=____, ____=____)
# Fit the tokenizer on en_text
en_tok_new.____(____)
# Convert the sentence to a word ID sequence
seq_new = en_tok_new.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence (with UNK): ', seq_new)
print('The ID 1 represents the word: ', en_tok_new.index_word[1])