De woordenschat beheren met de Tokenizer
Laten we iets dieper ingaan op de werking van de Tokenizer. In deze oefening leer je hoe je een willekeurige zin omzet naar een reeks met een getrainde Tokenizer. Verder leer je hoe je de grootte van de woordenschat van de Tokenizer beheerst. Je onderzoekt ook wat er gebeurt met out-of-vocabulary (OOV) woorden wanneer je de woordenschat van een Tokenizer beperkt.
Voor deze oefening krijg je de en_tok Tokenizer die je eerder hebt geïmplementeerd. De Tokenizer is al voor je geïmporteerd.
Deze oefening maakt deel uit van de cursus
Machine Translation met Keras
Oefeninstructies
- Zet de volgende zin om naar een reeks met de eerdere
en_tokTokenizer:she likes grapefruit , peaches , and lemons . - Maak een nieuwe
Tokenizer,en_tok_new, met een woordenschatgrootte van 50 en het out-of-vocabulary-woordUNK. - Fit de nieuwe tokenizer op de
en_text-data. - Zet de zin
she likes grapefruit , peaches , and lemons .om naar een reeks met deen_tok_new.
Praktische interactieve oefening
Probeer deze oefening eens door deze voorbeeldcode in te vullen.
# Convert the sentence to a word ID sequence
seq = ____.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence: ', seq)
# Define a tokenizer with vocabulary size 50 and oov_token 'UNK'
en_tok_new = ____(num_words=____, ____=____)
# Fit the tokenizer on en_text
en_tok_new.____(____)
# Convert the sentence to a word ID sequence
seq_new = en_tok_new.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence (with UNK): ', seq_new)
print('The ID 1 represents the word: ', en_tok_new.index_word[1])