CommencerCommencer gratuitement

Préparation des données textuelles pour la saisie dans le modèle

Précédemment, vous avez appris à créer des dictionnaires d'index de mots et vice versa. Dans cet exercice, vous allez diviser le texte par caractères et continuer à préparer les données pour l'apprentissage supervisé.

Diviser les textes en caractères peut sembler étrange, mais cette opération est souvent effectuée pour la génération de texte. De plus, le processus de préparation des données est identique, la seule modification réside dans la manière de diviser les textes.

Vous allez créer les données d'entraînement contenant une liste de textes de longueur fixe et leurs étiquettes, qui sont les caractères suivants correspondants.

Vous continuerez à utiliser l'ensemble de données contenant les citations de Sheldon (The Big Bang Theory), disponible dans la variable sheldon_quotes.

La fonction « print » de l'print_examples() e affiche les paires afin que vous puissiez voir comment les données ont été transformées. Veuillez consulter le site help() pour plus de détails.

Cet exercice fait partie du cours

Réseaux neuronaux récurrents (RNN) pour la modélisation du langage avec Keras

Afficher le cours

Instructions

  • Définissez l'step t comme étant égal à 2 et chars_window comme étant égal à 10.
  • Ajoutez la phrase suivante à la variable sentences.
  • Ajoutez la position correcte du texte « sheldon » à la variable « next_chars ».
  • Utilisez la fonction « print_examples() » pour imprimer des phrases d'10 et les caractères suivants.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create lists to keep the sentences and the next character
sentences = []   # ~ Training data
next_chars = []  # ~ Training labels

# Define hyperparameters
step = ____          # ~ Step to take when reading the texts in characters
chars_window = ____ # ~ Number of characters to use to predict the next one  

# Loop over the text: length `chars_window` per time with step equal to `step`
for i in range(0, len(sheldon_quotes) - chars_window, step):
    sentences.____(sheldon_quotes[i:i + chars_window])
    next_chars.append(sheldon_quotes[____])

# Print 10 pairs
print_examples(____, ____, 10)
Modifier et exécuter le code