ComeçarComece de graça

Preparando dados de texto para entrada no modelo

Antes, você aprendeu a criar dicionários de índices para palavras e vice-versa. Neste exercício, você vai dividir o texto por caracteres e continuar a preparar os dados para o aprendizado supervisionado.

Dividir os textos em caracteres pode parecer estranho, mas é algo que se faz bastante na geração de textos. Além disso, o processo de preparação dos dados é o mesmo, a única diferença é como dividir os textos.

Você vai criar os dados de treinamento com uma lista de textos de comprimento fixo e seus rótulos, que são os próximos caracteres correspondentes.

Você vai continuar usando o conjunto de dados com citações do Sheldon (The Big Bang Theory), que tá na variável “ sheldon_quotes ”.

A função “ print_examples() ” mostra os pares pra você ver como os dados foram transformados. Para mais detalhes, dá uma olhada em help().

Este exercício faz parte do curso

Redes Neurais Recorrentes (RNNs) para Modelagem de Linguagem com Keras

Ver curso

Instruções do exercício

  • Defina step igual a 2 e chars_window igual a 10.
  • Adicione a próxima frase à variável “ sentences ”.
  • Adicione a posição correta do texto “ sheldon ” à variável “ next_chars ”.
  • Use a função “ print_examples() ” para imprimir frases e os próximos caracteres de 10.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create lists to keep the sentences and the next character
sentences = []   # ~ Training data
next_chars = []  # ~ Training labels

# Define hyperparameters
step = ____          # ~ Step to take when reading the texts in characters
chars_window = ____ # ~ Number of characters to use to predict the next one  

# Loop over the text: length `chars_window` per time with step equal to `step`
for i in range(0, len(sheldon_quotes) - chars_window, step):
    sentences.____(sheldon_quotes[i:i + chars_window])
    next_chars.append(sheldon_quotes[____])

# Print 10 pairs
print_examples(____, ____, 10)
Editar e executar o código