Créer des vecteurs de phrases et de caractères suivants

Cet exercice met l’accent sur l’importance de la préparation des données. Vous utiliserez des textes contenant des répliques du personnage Sheldon de la série The Big Bang Theory comme entrée et vous créerez des vecteurs d’index de phrases et de caractères suivants nécessaires avant de construire un modèle de génération de texte.

Le texte est disponible dans la variable sheldon, tout comme le vocabulaire (les caractères) dans la variable vocabulary, et les hyperparamètres chars_window et step définis aux valeurs 20 et 3. Cela signifie qu’une séquence de 20 caractères servira à prédire le caractère suivant, et que la fenêtre se déplacera de 3 caractères à chaque itération.

De plus, le paquet pandas sous l’alias pd est déjà chargé dans l’environnement.

Cet exercice fait partie du cours

<cours>Réseaux de neurones récurrents (RNN) pour la modélisation du langage avec Keras</cours>

Voir le cours

Instructions de l’exercice

Séparez le texte par saut de ligne pour itérer sur les phrases.
Bouclez jusqu’à la fin de la phrase moins chars_window.
Ajoutez à la variable sentences la portion de phrase de longueur chars_window, puis ajoutez à la variable next_chars le caractère suivant.
Utilisez les vecteurs obtenus pour créer un pd.DataFrame() et affichez ses premières lignes.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Instantiate the vectors
sentences = []
next_chars = []
# Loop for every sentence
for sentence in sheldon.____:
    # Get 20 previous chars and next char; then shift by step
    for i in range(0, len(sentence) - ____, step):
        sentences.append(sentence[i:i + ____])
        next_chars.append(sentence[____ + chars_window])

# Define a Data Frame with the vectors
df = pd.DataFrame({'sentence': ____, 'next_char': ____})

# Print the initial rows
print(df.head())

Modifier et exécuter le code