Contrôler le vocabulaire avec le tokenizer
Examinons de plus près le fonctionnement de l'Tokenizer. Dans cet exercice, vous apprendrez à convertir une phrase arbitraire en une séquence à l'aide d'un réseau neuronal neuronal ( Tokenizer) entraîné. De plus, vous apprendrez à contrôler la taille du vocabulaire de l'Tokenizer. Vous étudierez également ce qui se passe avec les mots hors vocabulaire (OOV) lorsque vous limitez la taille du vocabulaire d'un système de reconnaissance de mots ( Tokenizer).
Pour cet exercice, vous disposez de l'en_tok Tokenizer que vous avez précédemment mise en œuvre. Le fichier « Tokenizer » a été importé pour vous.
Cet exercice fait partie du cours
Traduction automatique avec Keras
Instructions
- Veuillez convertir la phrase suivante en une séquence à l'aide du tokenizer
en_tok:she likes grapefruit , peaches , and lemons . - Créez un nouveau fichier
Tokenizer,en_tok_newavec un vocabulaire de 50 mots et un fichier de mots hors vocabulaireUNK. - Appliquez le nouveau tokenizer aux données de l
en_text. - Veuillez convertir la phrase «
she likes grapefruit , peaches , and lemons .» en une séquence à l'aide de l'en_tok_new.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Convert the sentence to a word ID sequence
seq = ____.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence: ', seq)
# Define a tokenizer with vocabulary size 50 and oov_token 'UNK'
en_tok_new = ____(num_words=____, ____=____)
# Fit the tokenizer on en_text
en_tok_new.____(____)
# Convert the sentence to a word ID sequence
seq_new = en_tok_new.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence (with UNK): ', seq_new)
print('The ID 1 represents the word: ', en_tok_new.index_word[1])