CommencerCommencer gratuitement

Transformer un nouveau texte

Dans cet exercice, vous allez transformer un nouveau texte en séquences d'index numériques dans les dictionnaires créés précédemment.

Cela est utile lorsque vous disposez déjà d'un modèle entraîné et que vous souhaitez l'appliquer à un nouvel ensemble de données. Les étapes de prétraitement effectuées sur les données d'entraînement doivent également être appliquées au nouveau texte afin que le modèle puisse effectuer des prédictions/classifications.

Ici, vous utiliserez également un jeton spécial '<UKN/>' pour représenter les mots qui ne figurent pas dans le vocabulaire. En général, ces jetons spéciaux sont les premiers index des dictionnaires, la position 0.

Les variables word_to_index, index_to_word et vocabulary sont déjà chargées dans l'environnement. De plus, la variable contenant le nouveau texte est également chargée en tant qu'new_text. Le nouveau texte a été imprimé pour que vous puissiez le consulter.

Cet exercice fait partie du cours

Réseaux neuronaux récurrents (RNN) pour la modélisation du langage avec Keras

Afficher le cours

Instructions

  • Parcourez la liste new_text contenant les phrases.
  • Définissez l'index sur « 0 » si le mot n'est pas trouvé dans le dictionnaire.
  • Ajoutez la phrase avec les index à la variable new_text_split.
  • Convertissez les index en texte à l'aide du dictionnaire « index_to_word ».

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Loop through the sentences and get indexes
new_text_split = []
for sentence in ____:
    sent_split = []
    for wd in sentence.split(' '):
        index = word_to_index.get(wd, ____)
        sent_split.append(index)
    new_text_split.append(____)

# Print the first sentence's indexes
print(new_text_split[0])

# Print the sentence converted using the dictionary
print(' '.join([index_to_word[____] for index in new_text_split[0]]))
Modifier et exécuter le code