Contrôler le vocabulaire avec le tokenizer

Examinons de plus près le fonctionnement de l'Tokenizer. Dans cet exercice, vous apprendrez à convertir une phrase arbitraire en une séquence à l'aide d'un réseau neuronal neuronal ( Tokenizer) entraîné. De plus, vous apprendrez à contrôler la taille du vocabulaire de l'Tokenizer. Vous étudierez également ce qui se passe avec les mots hors vocabulaire (OOV) lorsque vous limitez la taille du vocabulaire d'un système de reconnaissance de mots ( Tokenizer).

Pour cet exercice, vous disposez de l'en_tok Tokenizer que vous avez précédemment mise en œuvre. Le fichier « Tokenizer » a été importé pour vous.

Cet exercice fait partie du cours

Traduction automatique avec Keras

Afficher le cours

Instructions

Veuillez convertir la phrase suivante en une séquence à l'aide du tokenizer en_tok: she likes grapefruit , peaches , and lemons .
Créez un nouveau fichier Tokenizer, en_tok_new avec un vocabulaire de 50 mots et un fichier de mots hors vocabulaire UNK.
Appliquez le nouveau tokenizer aux données de l en_text.
Veuillez convertir la phrase « she likes grapefruit , peaches , and lemons . » en une séquence à l'aide de l'en_tok_new.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Convert the sentence to a word ID sequence
seq = ____.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence: ', seq)

# Define a tokenizer with vocabulary size 50 and oov_token 'UNK'
en_tok_new = ____(num_words=____, ____=____)

# Fit the tokenizer on en_text
en_tok_new.____(____)

# Convert the sentence to a word ID sequence
seq_new = en_tok_new.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence (with UNK): ', seq_new)
print('The ID 1 represents the word: ', en_tok_new.index_word[1])

Modifier et exécuter le code