De woordenschat beheren met de Tokenizer

Laten we iets dieper ingaan op de werking van de Tokenizer. In deze oefening leer je hoe je een willekeurige zin omzet naar een reeks met een getrainde Tokenizer. Verder leer je hoe je de grootte van de woordenschat van de Tokenizer beheerst. Je onderzoekt ook wat er gebeurt met out-of-vocabulary (OOV) woorden wanneer je de woordenschat van een Tokenizer beperkt.

Voor deze oefening krijg je de en_tok Tokenizer die je eerder hebt geïmplementeerd. De Tokenizer is al voor je geïmporteerd.

Deze oefening maakt deel uit van de cursus

Machine Translation met Keras

Bekijk cursus

Oefeninstructies

Zet de volgende zin om naar een reeks met de eerdere en_tok Tokenizer: she likes grapefruit , peaches , and lemons .
Maak een nieuwe Tokenizer, en_tok_new, met een woordenschatgrootte van 50 en het out-of-vocabulary-woord UNK.
Fit de nieuwe tokenizer op de en_text-data.
Zet de zin she likes grapefruit , peaches , and lemons . om naar een reeks met de en_tok_new.

Interactieve oefening met praktijkervaring

Probeer deze oefening door deze voorbeeldcode aan te vullen.

# Convert the sentence to a word ID sequence
seq = ____.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence: ', seq)

# Define a tokenizer with vocabulary size 50 and oov_token 'UNK'
en_tok_new = ____(num_words=____, ____=____)

# Fit the tokenizer on en_text
en_tok_new.____(____)

# Convert the sentence to a word ID sequence
seq_new = en_tok_new.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence (with UNK): ', seq_new)
print('The ID 1 represents the word: ', en_tok_new.index_word[1])

Code bewerken en uitvoeren