Preparación de datos de texto para la entrada del modelo

Anteriormente, aprendiste a crear diccionarios de índices de palabras y viceversa. En este ejercicio, dividirás el texto por caracteres y continuarás preparando los datos para el aprendizaje supervisado.

Dividir los textos en caracteres puede parecer extraño, pero es algo que se hace a menudo para generar texto. Además, el proceso para preparar los datos es el mismo, el único cambio es cómo dividir los textos.

Crearás los datos de entrenamiento que contienen una lista de textos de longitud fija y sus etiquetas, que son los caracteres siguientes correspondientes.

Seguirás utilizando el conjunto de datos que contiene citas de Sheldon (The Big Bang Theory), disponible en la variable sheldon_quotes.

La función « print_examples() » imprime los pares para que puedas ver cómo se han transformado los datos. Para obtener más información, visita help().

Este ejercicio forma parte del curso

Redes neuronales recurrentes (RNN) para el modelado del lenguaje con Keras

Ver curso

Instrucciones del ejercicio

Define step igual a 2 y chars_window igual a 10.
Añade la siguiente frase a la variable « sentences ».
Añade la posición correcta del texto « sheldon » a la variable « next_chars ».
Utiliza la función « print_examples() » para imprimir frases e 10 es y los caracteres siguientes.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create lists to keep the sentences and the next character
sentences = []   # ~ Training data
next_chars = []  # ~ Training labels

# Define hyperparameters
step = ____          # ~ Step to take when reading the texts in characters
chars_window = ____ # ~ Number of characters to use to predict the next one  

# Loop over the text: length `chars_window` per time with step equal to `step`
for i in range(0, len(sheldon_quotes) - chars_window, step):
    sentences.____(sheldon_quotes[i:i + chars_window])
    next_chars.append(sheldon_quotes[____])

# Print 10 pairs
print_examples(____, ____, 10)

Editar y ejecutar código