Controlando o vocabulário com o Tokenizer
Vamos dar uma olhada mais de perto em como funciona o Tokenizer
. Neste exercício, você vai aprender a transformar uma frase qualquer em uma sequência usando um modelo de linguagem natural ( Tokenizer
) treinado. Além disso, você vai aprender a controlar o tamanho do vocabulário do Tokenizer
. Você também vai ver o que rola com as palavras que não estão no vocabulário (OOV) quando você limita o tamanho do vocabulário de um documento único ( Tokenizer
).
Para este exercício, você recebeu o arquivo “ en_tok
Tokenizer
” que implementou anteriormente. O arquivo “ Tokenizer
” foi importado para você.
Este exercício faz parte do curso
Tradução automática com Keras
Instruções do exercício
- Transforme a frase a seguir em uma sequência usando o tokenizador
en_tok
:she likes grapefruit , peaches , and lemons .
- Crie um novo
Tokenizer
,en_tok_new
com um vocabulário de 50 palavras e uma palavra fora do vocabulárioUNK
. - Ajuste o novo tokenizador nos dados d
en_text
. - Transforme a frase “
she likes grapefruit , peaches , and lemons .
” numa sequência usando o “en_tok_new
”.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Convert the sentence to a word ID sequence
seq = ____.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence: ', seq)
# Define a tokenizer with vocabulary size 50 and oov_token 'UNK'
en_tok_new = ____(num_words=____, ____=____)
# Fit the tokenizer on en_text
en_tok_new.____(____)
# Convert the sentence to a word ID sequence
seq_new = en_tok_new.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence (with UNK): ', seq_new)
print('The ID 1 represents the word: ', en_tok_new.index_word[1])