ComenzarEmpieza gratis

Crear vectores de frases y caracteres siguientes

Este ejercicio tiene como objetivo enfatizar aún más el valor de la preparación de datos. Utilizarás textos que contienen frases del personaje Sheldon de la serie de televisión The Big Bang Theory como entrada y crearás vectores de índices de frases y caracteres siguientes que son necesarios antes de crear un modelo de generación de texto.

El texto está disponible en la variable sheldon, así como el vocabulario (caracteres) en la variable vocabulary y los hiperparámetros chars_window y step definidos con los valores 20 y 3. Esto significa que se utilizará una secuencia de 20 caracteres para predecir el siguiente, y la ventana se desplazará 3 caracteres en cada iteración.

Además, el paquete pandas como pd se carga en el entorno.

Este ejercicio forma parte del curso

Redes neuronales recurrentes (RNN) para el modelado del lenguaje con Keras

Ver curso

Instrucciones del ejercicio

  • Divide el texto por saltos de línea para recorrer las oraciones.
  • Repite hasta el final de la frase menos chars_window.
  • Añade la parte de la frase que contiene los caracteres « chars_window » a la variable « sentences » y añade el siguiente carácter a la variable « next_chars ».
  • Utiliza los vectores obtenidos para crear un objeto de tipo « pd.DataFrame() » e imprime sus primeras filas.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Instantiate the vectors
sentences = []
next_chars = []
# Loop for every sentence
for sentence in sheldon.____:
    # Get 20 previous chars and next char; then shift by step
    for i in range(0, len(sentence) - ____, step):
        sentences.append(sentence[i:i + ____])
        next_chars.append(sentence[____ + chars_window])

# Define a Data Frame with the vectors
df = pd.DataFrame({'sentence': ____, 'next_char': ____})

# Print the initial rows
print(df.head())
Editar y ejecutar código