Transformar texto nuevo
En este ejercicio, transformarás un nuevo texto en secuencias de índices numéricos en los diccionarios creados anteriormente.
Esto resulta útil cuando ya tienes un modelo entrenado y deseas aplicarlo a un nuevo conjunto de datos. Los pasos de preprocesamiento realizados en los datos de entrenamiento también deben aplicarse al nuevo texto, para que el modelo pueda realizar predicciones/clasificaciones.
Aquí también utilizarás un símbolo especial, '<UKN/>', para representar palabras que no están en el vocabulario. Normalmente, estos tokens especiales son los primeros índices de los diccionarios, la posición 0.
Las variables word_to_index, index_to_word y vocabulary ya están cargadas en el entorno. Además, la variable con el nuevo texto también se carga como new_text. El nuevo texto ha sido impreso para que puedas echarle un vistazo.
Este ejercicio forma parte del curso
Redes neuronales recurrentes (RNN) para el modelado del lenguaje con Keras
Instrucciones del ejercicio
- Recorre la lista
new_textque contiene las frases. - Establece
0como índice en caso de que la palabra no se encuentre en el diccionario. - Añade la sentencia con índices a la variable
new_text_split. - Convierte los índices de nuevo a texto utilizando el diccionario
index_to_word.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Loop through the sentences and get indexes
new_text_split = []
for sentence in ____:
sent_split = []
for wd in sentence.split(' '):
index = word_to_index.get(wd, ____)
sent_split.append(index)
new_text_split.append(____)
# Print the first sentence's indexes
print(new_text_split[0])
# Print the sentence converted using the dictionary
print(' '.join([index_to_word[____] for index in new_text_split[0]]))