Controlando o vocabulário com o Tokenizer
Vamos nos aprofundar um pouco mais no funcionamento do Tokenizer. Neste exercício, você vai aprender a converter uma frase qualquer em uma sequência usando um Tokenizer já treinado. Além disso, você vai aprender a controlar o tamanho do vocabulário do Tokenizer. Você também vai investigar o que acontece com as palavras fora do vocabulário (OOV) quando você limita o tamanho do vocabulário de um Tokenizer.
Para este exercício, foi fornecido o Tokenizer en_tok que você implementou anteriormente. O Tokenizer já foi importado para você.
Este exercício faz parte do curso
Machine Translation with Keras
Instruções do exercício
- Converta a seguinte frase em uma sequência usando o
Tokenizeren_tok:she likes grapefruit , peaches , and lemons . - Crie um novo
Tokenizer,en_tok_new, com tamanho de vocabulário 50 e palavra fora do vocabulárioUNK. - Ajuste o novo tokenizer nos dados
en_text. - Converta a frase
she likes grapefruit , peaches , and lemons .em uma sequência com oen_tok_new.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Convert the sentence to a word ID sequence
seq = ____.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence: ', seq)
# Define a tokenizer with vocabulary size 50 and oov_token 'UNK'
en_tok_new = ____(num_words=____, ____=____)
# Fit the tokenizer on en_text
en_tok_new.____(____)
# Convert the sentence to a word ID sequence
seq_new = en_tok_new.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence (with UNK): ', seq_new)
print('The ID 1 represents the word: ', en_tok_new.index_word[1])