ComeçarComece de graça

Crie vetores de frases e próximos caracteres

Esse exercício quer mostrar como é importante preparar os dados. Você vai usar textos com frases do personagem Sheldon, da série The Big Bang Theory, como entrada e vai criar vetores de índices de frases e próximos caracteres que são necessários antes de criar um modelo de geração de texto.

O texto está disponível na variável sheldon, assim como o vocabulário (caracteres) na variável vocabulary e os hiperparâmetros chars_window e step definidos com os valores 20 e 3. Isso quer dizer que uma sequência de 20 caracteres vai ser usada pra prever o próximo, e a janela vai mudar 3 caracteres a cada repetição.

Além disso, o pacote pandas como pd é carregado no ambiente.

Este exercício faz parte do curso

Redes Neurais Recorrentes (RNNs) para Modelagem de Linguagem com Keras

Ver curso

Instruções do exercício

  • Divida o texto por quebras de linha para percorrer as frases.
  • Repita até o final da frase menos chars_window.
  • Adicione a parte da frase que tem os caracteres “ chars_window ” à variável “ sentences ” e adicione o próximo caractere à variável “ next_chars ”.
  • Usa os vetores que você conseguiu para criar uma matriz quadrada de pd.DataFrame() e imprima as primeiras linhas dela.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Instantiate the vectors
sentences = []
next_chars = []
# Loop for every sentence
for sentence in sheldon.____:
    # Get 20 previous chars and next char; then shift by step
    for i in range(0, len(sentence) - ____, step):
        sentences.append(sentence[i:i + ____])
        next_chars.append(sentence[____ + chars_window])

# Define a Data Frame with the vectors
df = pd.DataFrame({'sentence': ____, 'next_char': ____})

# Print the initial rows
print(df.head())
Editar e executar o código