Crie vetores de frases e próximos caracteres
Esse exercício quer mostrar como é importante preparar os dados. Você vai usar textos com frases do personagem Sheldon, da série The Big Bang Theory, como entrada e vai criar vetores de índices de frases e próximos caracteres que são necessários antes de criar um modelo de geração de texto.
O texto está disponível na variável sheldon, assim como o vocabulário (caracteres) na variável vocabulary e os hiperparâmetros chars_window e step definidos com os valores 20 e 3. Isso quer dizer que uma sequência de 20 caracteres vai ser usada pra prever o próximo, e a janela vai mudar 3 caracteres a cada repetição.
Além disso, o pacote pandas como pd é carregado no ambiente.
Este exercício faz parte do curso
Redes Neurais Recorrentes (RNNs) para Modelagem de Linguagem com Keras
Instruções do exercício
- Divida o texto por quebras de linha para percorrer as frases.
- Repita até o final da frase menos
chars_window. - Adicione a parte da frase que tem os caracteres “
chars_window” à variável “sentences” e adicione o próximo caractere à variável “next_chars”. - Usa os vetores que você conseguiu para criar uma matriz quadrada de
pd.DataFrame()e imprima as primeiras linhas dela.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Instantiate the vectors
sentences = []
next_chars = []
# Loop for every sentence
for sentence in sheldon.____:
# Get 20 previous chars and next char; then shift by step
for i in range(0, len(sentence) - ____, step):
sentences.append(sentence[i:i + ____])
next_chars.append(sentence[____ + chars_window])
# Define a Data Frame with the vectors
df = pd.DataFrame({'sentence': ____, 'next_char': ____})
# Print the initial rows
print(df.head())