Créer des vecteurs de phrases et de caractères suivants
Cet exercice met l’accent sur l’importance de la préparation des données. Vous utiliserez des textes contenant des répliques du personnage Sheldon de la série The Big Bang Theory comme entrée et vous créerez des vecteurs d’index de phrases et de caractères suivants nécessaires avant de construire un modèle de génération de texte.
Le texte est disponible dans la variable sheldon, tout comme le vocabulaire (les caractères) dans la variable vocabulary, et les hyperparamètres chars_window et step définis aux valeurs 20 et 3. Cela signifie qu’une séquence de 20 caractères servira à prédire le caractère suivant, et que la fenêtre se déplacera de 3 caractères à chaque itération.
De plus, le paquet pandas sous l’alias pd est déjà chargé dans l’environnement.
Cet exercice fait partie du cours
Réseaux de neurones récurrents (RNN) pour la modélisation du langage avec Keras
Instructions
- Séparez le texte par saut de ligne pour itérer sur les phrases.
- Bouclez jusqu’à la fin de la phrase moins
chars_window. - Ajoutez à la variable
sentencesla portion de phrase de longueurchars_window, puis ajoutez à la variablenext_charsle caractère suivant. - Utilisez les vecteurs obtenus pour créer un
pd.DataFrame()et affichez ses premières lignes.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Instantiate the vectors
sentences = []
next_chars = []
# Loop for every sentence
for sentence in sheldon.____:
# Get 20 previous chars and next char; then shift by step
for i in range(0, len(sentence) - ____, step):
sentences.append(sentence[i:i + ____])
next_chars.append(sentence[____ + chars_window])
# Define a Data Frame with the vectors
df = pd.DataFrame({'sentence': ____, 'next_char': ____})
# Print the initial rows
print(df.head())