Controlar el vocabulario con el tokenizador
Profundicemos un poco más en el funcionamiento del Tokenizer
. En este ejercicio aprenderás a convertir una frase arbitraria en una secuencia utilizando un modelo de lenguaje natural ( Tokenizer
) entrenado. Además, aprenderás a controlar el tamaño del vocabulario de la Tokenizer
. También investigarás qué ocurre con las palabras que no están en el vocabulario (OOV) cuando se limita el tamaño del vocabulario de un modelo de lenguaje automático ( Tokenizer
).
Para este ejercicio, se te ha proporcionado el archivo « en_tok
Tokenizer
» que implementaste anteriormente. Se ha importado el archivo « Tokenizer
» para ti.
Este ejercicio forma parte del curso
Traducción automática con Keras
Instrucciones del ejercicio
- Convierte la siguiente frase en una secuencia utilizando el tokenizador anterior
en_tok
:she likes grapefruit , peaches , and lemons .
- Crea un nuevo archivo
Tokenizer
,en_tok_new
con un vocabulario de 50 palabras y un archivo de palabras no incluidas en el vocabularioUNK
. - Aplica el nuevo tokenizador a los datos de
en_text
. - Convierte la frase «
she likes grapefruit , peaches , and lemons .
» en una secuencia con el «en_tok_new
».
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Convert the sentence to a word ID sequence
seq = ____.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence: ', seq)
# Define a tokenizer with vocabulary size 50 and oov_token 'UNK'
en_tok_new = ____(num_words=____, ____=____)
# Fit the tokenizer on en_text
en_tok_new.____(____)
# Convert the sentence to a word ID sequence
seq_new = en_tok_new.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence (with UNK): ', seq_new)
print('The ID 1 represents the word: ', en_tok_new.index_word[1])