Transformando um texto novo
Neste exercício, você vai transformar um novo texto em sequências de índices numéricos nos dicionários que criou antes.
Isso é útil quando você já tem um modelo treinado e quer aplicá-lo em um novo conjunto de dados. As etapas de pré-processamento feitas nos dados de treinamento também devem ser aplicadas ao novo texto, para que o modelo possa fazer previsões/classificações.
Aqui, você também vai usar um símbolo especial '<UKN/>' para representar palavras que não estão no vocabulário. Normalmente, esses tokens especiais são os primeiros índices dos dicionários, a posição 0.
As variáveis word_to_index, index_to_word e vocabulary já estão carregadas no ambiente. Além disso, a variável com o novo texto também é carregada como um new_text. O novo texto já tá impresso pra você dar uma olhada.
Este exercício faz parte do curso
Redes Neurais Recorrentes (RNNs) para Modelagem de Linguagem com Keras
Instruções do exercício
- Passa pela lista
new_textque tem as frases. - Defina como “
0” o índice caso a palavra não seja encontrada no dicionário. - Adicione a frase com índices à variável
new_text_split. - Converta os índices de volta para texto usando o dicionário
index_to_word.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Loop through the sentences and get indexes
new_text_split = []
for sentence in ____:
sent_split = []
for wd in sentence.split(' '):
index = word_to_index.get(wd, ____)
sent_split.append(index)
new_text_split.append(____)
# Print the first sentence's indexes
print(new_text_split[0])
# Print the sentence converted using the dictionary
print(' '.join([index_to_word[____] for index in new_text_split[0]]))