ComeçarComece de graça

Preparando o texto de entrada

Você viu no vídeo como preparar os textos de entrada e saída. Esse exercício quer mostrar uma prática comum que é usar o comprimento máximo das frases para preencher todas elas, assim nenhuma informação vai se perder.

Como os modelos RNN precisam que as entradas tenham o mesmo tamanho, essa é uma maneira de preencher todas as frases e só adicionar zeros às frases menores, sem cortar as maiores.

Além disso, você vai usar palavras em vez de caracteres pra representar os tokens, que é uma abordagem comum pra modelos NMT.

Os textos em português são carregados na variável pt_sentences e um tokenizador adequado na variável input_tokenizer.

Este exercício faz parte do curso

Redes Neurais Recorrentes (RNNs) para Modelagem de Linguagem com Keras

Ver curso

Instruções do exercício

  • Use o método “ .split() ” em cada frase para dividir por espaços em branco e ver quantas palavras tem a frase.
  • Use o método .texts_to_sequences() para transformar texto em uma sequência de índices.
  • Use o comprimento máximo das frases que você conseguiu para preenchê-las.
  • Imprima a primeira frase transformada.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Get maximum length of the sentences
pt_length = max([len(sentence.____) for sentence in pt_sentences])

# Transform text to sequence of numerical indexes
X = input_tokenizer.____(pt_sentences)

# Pad the sequences
X = pad_sequences(X, maxlen=____, padding='post')

# Print first sentence
print(pt_sentences[0])

# Print transformed sentence
print(____)
Editar e executar o código