CommencerCommencer gratuitement

Créer des vecteurs de phrases et de caractères suivants

Cet exercice vise à mettre davantage l'accent sur l'importance de la préparation des données. Vous utiliserez des textes contenant des phrases prononcées par le personnage Sheldon de la série télévisée The Big Bang Theory comme données d'entrée et créerez des vecteurs d'index de phrases et de caractères suivants nécessaires avant de créer un modèle de génération de texte.

Le texte est disponible dans la variable sheldon, ainsi que le vocabulaire (caractères) dans la variable vocabulary et les hyperparamètres chars_window et step définis avec les valeurs 20 et 3. Cela signifie qu'une séquence de 20 caractères sera utilisée pour prédire le caractère suivant, et que la fenêtre se déplacera de 3 caractères à chaque itération.

De plus, le paquet pandas est chargé dans l'environnement en tant que pd.

Cet exercice fait partie du cours

Réseaux neuronaux récurrents (RNN) pour la modélisation du langage avec Keras

Afficher le cours

Instructions

  • Divisez le texte par sauts de ligne pour parcourir les phrases.
  • Répétez jusqu'à la fin de la phrase moins l'chars_window.
  • Ajoutez la partie de la phrase contenant des caractères d'chars_window à la variable sentences et ajoutez le caractère suivant à la variable next_chars.
  • Utilisez les vecteurs obtenus pour créer un tableau de type « pd.DataFrame() » et affichez ses premières lignes.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Instantiate the vectors
sentences = []
next_chars = []
# Loop for every sentence
for sentence in sheldon.____:
    # Get 20 previous chars and next char; then shift by step
    for i in range(0, len(sentence) - ____, step):
        sentences.append(sentence[i:i + ____])
        next_chars.append(sentence[____ + chars_window])

# Define a Data Frame with the vectors
df = pd.DataFrame({'sentence': ____, 'next_char': ____})

# Print the initial rows
print(df.head())
Modifier et exécuter le code