Transformar texto nuevo

En este ejercicio, transformarás un nuevo texto en secuencias de índices numéricos en los diccionarios creados anteriormente.

Esto resulta útil cuando ya tienes un modelo entrenado y deseas aplicarlo a un nuevo conjunto de datos. Los pasos de preprocesamiento realizados en los datos de entrenamiento también deben aplicarse al nuevo texto, para que el modelo pueda realizar predicciones/clasificaciones.

Aquí también utilizarás un símbolo especial, '<UKN/>', para representar palabras que no están en el vocabulario. Normalmente, estos tokens especiales son los primeros índices de los diccionarios, la posición 0.

Las variables word_to_index, index_to_word y vocabulary ya están cargadas en el entorno. Además, la variable con el nuevo texto también se carga como new_text. El nuevo texto ha sido impreso para que puedas echarle un vistazo.

Este ejercicio forma parte del curso

Redes neuronales recurrentes (RNN) para el modelado del lenguaje con Keras

Ver curso

Instrucciones del ejercicio

Recorre la lista new_text que contiene las frases.
Establece 0 como índice en caso de que la palabra no se encuentre en el diccionario.
Añade la sentencia con índices a la variable new_text_split.
Convierte los índices de nuevo a texto utilizando el diccionario index_to_word.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Loop through the sentences and get indexes
new_text_split = []
for sentence in ____:
    sent_split = []
    for wd in sentence.split(' '):
        index = word_to_index.get(wd, ____)
        sent_split.append(index)
    new_text_split.append(____)

# Print the first sentence's indexes
print(new_text_split[0])

# Print the sentence converted using the dictionary
print(' '.join([index_to_word[____] for index in new_text_split[0]]))

Editar y ejecutar código