Controlar el vocabulario con el tokenizador

Profundicemos un poco más en el funcionamiento del Tokenizer. En este ejercicio aprenderás a convertir una frase arbitraria en una secuencia utilizando un modelo de lenguaje natural ( Tokenizer) entrenado. Además, aprenderás a controlar el tamaño del vocabulario de la Tokenizer. También investigarás qué ocurre con las palabras que no están en el vocabulario (OOV) cuando se limita el tamaño del vocabulario de un modelo de lenguaje automático ( Tokenizer).

Para este ejercicio, se te ha proporcionado el archivo « en_tok Tokenizer » que implementaste anteriormente. Se ha importado el archivo « Tokenizer » para ti.

Este ejercicio forma parte del curso

Traducción automática con Keras

Ver curso

Instrucciones del ejercicio

Convierte la siguiente frase en una secuencia utilizando el tokenizador anterior en_tok: she likes grapefruit , peaches , and lemons .
Crea un nuevo archivo Tokenizer, en_tok_new con un vocabulario de 50 palabras y un archivo de palabras no incluidas en el vocabulario UNK.
Aplica el nuevo tokenizador a los datos de en_text.
Convierte la frase « she likes grapefruit , peaches , and lemons . » en una secuencia con el « en_tok_new ».

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Convert the sentence to a word ID sequence
seq = ____.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence: ', seq)

# Define a tokenizer with vocabulary size 50 and oov_token 'UNK'
en_tok_new = ____(num_words=____, ____=____)

# Fit the tokenizer on en_text
en_tok_new.____(____)

# Convert the sentence to a word ID sequence
seq_new = en_tok_new.____(['she likes grapefruit , peaches , and lemons .'])
print('Word ID sequence (with UNK): ', seq_new)
print('The ID 1 represents the word: ', en_tok_new.index_word[1])

Editar y ejecutar código