Controlar el vocabulario con el tokenizador
Profundicemos un poco más en el funcionamiento del Tokenizer. En este ejercicio aprenderás a convertir una frase arbitraria en una secuencia utilizando un modelo de lenguaje natural ( Tokenizer) entrenado. Además, aprenderás a controlar el tamaño del vocabulario de la Tokenizer. También investigarás qué ocurre con las palabras que no están en el vocabulario (OOV) cuando se limita el tamaño del vocabulario de un modelo de lenguaje automático ( Tokenizer).
Para este ejercicio, se te ha proporcionado el archivo « en_tok Tokenizer » que implementaste anteriormente. Se ha importado el archivo « Tokenizer » para ti.
Este ejercicio forma parte del curso
Traducción automática con Keras
Instrucciones del ejercicio
- Convierte la siguiente frase en una secuencia utilizando el tokenizador anterior
en_tok:she likes grapefruit , peaches , and lemons . - Crea un nuevo archivo
Tokenizer,en_tok_newcon un vocabulario de 50 palabras y un archivo de palabras no incluidas en el vocabularioUNK. - Aplica el nuevo tokenizador a los datos de
en_text. - Convierte la frase «
she likes grapefruit , peaches , and lemons .» en una secuencia con el «en_tok_new».
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Convert the sentence to a word ID sequence
seq = ____.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence: ', seq)
# Define a tokenizer with vocabulary size 50 and oov_token 'UNK'
en_tok_new = ____(num_words=____, ____=____)
# Fit the tokenizer on en_text
en_tok_new.____(____)
# Convert the sentence to a word ID sequence
seq_new = en_tok_new.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence (with UNK): ', seq_new)
print('The ID 1 represents the word: ', en_tok_new.index_word[1])