Preparando o texto de entrada
Você viu no vídeo como preparar os textos de entrada e saída. Esse exercício quer mostrar uma prática comum que é usar o comprimento máximo das frases para preencher todas elas, assim nenhuma informação vai se perder.
Como os modelos RNN precisam que as entradas tenham o mesmo tamanho, essa é uma maneira de preencher todas as frases e só adicionar zeros às frases menores, sem cortar as maiores.
Além disso, você vai usar palavras em vez de caracteres pra representar os tokens, que é uma abordagem comum pra modelos NMT.
Os textos em português são carregados na variável pt_sentences e um tokenizador adequado na variável input_tokenizer.
Este exercício faz parte do curso
Redes Neurais Recorrentes (RNNs) para Modelagem de Linguagem com Keras
Instruções do exercício
- Use o método “
.split()” em cada frase para dividir por espaços em branco e ver quantas palavras tem a frase. - Use o método
.texts_to_sequences()para transformar texto em uma sequência de índices. - Use o comprimento máximo das frases que você conseguiu para preenchê-las.
- Imprima a primeira frase transformada.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Get maximum length of the sentences
pt_length = max([len(sentence.____) for sentence in pt_sentences])
# Transform text to sequence of numerical indexes
X = input_tokenizer.____(pt_sentences)
# Pad the sequences
X = pad_sequences(X, maxlen=____, padding='post')
# Print first sentence
print(pt_sentences[0])
# Print transformed sentence
print(____)