Créer des vecteurs de phrases et de caractères suivants
Cet exercice vise à mettre davantage l'accent sur l'importance de la préparation des données. Vous utiliserez des textes contenant des phrases prononcées par le personnage Sheldon de la série télévisée The Big Bang Theory comme données d'entrée et créerez des vecteurs d'index de phrases et de caractères suivants nécessaires avant de créer un modèle de génération de texte.
Le texte est disponible dans la variable sheldon
, ainsi que le vocabulaire (caractères) dans la variable vocabulary
et les hyperparamètres chars_window
et step
définis avec les valeurs 20
et 3
. Cela signifie qu'une séquence de 20 caractères sera utilisée pour prédire le caractère suivant, et que la fenêtre se déplacera de 3 caractères à chaque itération.
De plus, le paquet pandas
est chargé dans l'environnement en tant que pd
.
Cet exercice fait partie du cours
Réseaux neuronaux récurrents (RNN) pour la modélisation du langage avec Keras
Instructions
- Divisez le texte par sauts de ligne pour parcourir les phrases.
- Répétez jusqu'à la fin de la phrase moins l'
chars_window
. - Ajoutez la partie de la phrase contenant des caractères d'
chars_window
à la variablesentences
et ajoutez le caractère suivant à la variablenext_chars
. - Utilisez les vecteurs obtenus pour créer un tableau de type «
pd.DataFrame()
» et affichez ses premières lignes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Instantiate the vectors
sentences = []
next_chars = []
# Loop for every sentence
for sentence in sheldon.____:
# Get 20 previous chars and next char; then shift by step
for i in range(0, len(sentence) - ____, step):
sentences.append(sentence[i:i + ____])
next_chars.append(sentence[____ + chars_window])
# Define a Data Frame with the vectors
df = pd.DataFrame({'sentence': ____, 'next_char': ____})
# Print the initial rows
print(df.head())