Preparación del texto de entrada

Has visto en el vídeo cómo preparar los textos de entrada y salida. Este ejercicio tiene como objetivo mostrar una práctica habitual que consiste en utilizar la longitud máxima de las frases para rellenarlas todas, de modo que no se pierda ninguna información.

Dado que los modelos RNN necesitan que las entradas tengan el mismo tamaño, esta es una forma de rellenar todas las frases y simplemente añadir ceros a las frases más cortas, sin cortar las más largas.

Además, utilizarás palabras en lugar de caracteres para representar los tokens, lo cual es un enfoque habitual en los modelos NMT.

Los textos en portugués se cargan en la variable pt_sentences y un tokenizador ajustado en la variable input_tokenizer.

Este ejercicio forma parte del curso

Redes neuronales recurrentes (RNN) para el modelado del lenguaje con Keras

Ver curso

Instrucciones del ejercicio

Utiliza el método « .split() » en cada frase para dividirla por espacios en blanco y obtener el número de palabras que contiene.
Utiliza el método .texts_to_sequences() para transformar texto en una secuencia de índices.
Utiliza la longitud máxima de las frases obtenida para rellenarlas.
Imprime la primera frase transformada.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Get maximum length of the sentences
pt_length = max([len(sentence.____) for sentence in pt_sentences])

# Transform text to sequence of numerical indexes
X = input_tokenizer.____(pt_sentences)

# Pad the sequences
X = pad_sequences(X, maxlen=____, padding='post')

# Print first sentence
print(pt_sentences[0])

# Print transformed sentence
print(____)

Editar y ejecutar código