Transformer un nouveau texte

Dans cet exercice, vous allez transformer un nouveau texte en séquences d’index numériques à partir des dictionnaires créés précédemment.

C’est utile lorsque vous avez déjà un modèle entraîné et que vous souhaitez l’appliquer à un nouveau jeu de données. Les étapes de prétraitement réalisées sur les données d’entraînement doivent aussi être appliquées au nouveau texte, afin que le modèle puisse effectuer des prédictions/classifications.

Ici, vous allez également utiliser un jeton spécial '<UKN/>' pour représenter les mots absents du vocabulaire. En général, ces jetons spéciaux correspondent aux premiers index des dictionnaires, à la position 0.

Les variables word_to_index, index_to_word et vocabulary sont déjà chargées dans l’environnement. De plus, la variable contenant le nouveau texte est chargée sous le nom new_text. Le nouveau texte a été affiché pour que vous puissiez le consulter.

Cet exercice fait partie du cours

<cours>Réseaux de neurones récurrents (RNN) pour la modélisation du langage avec Keras</cours>

Voir le cours

Instructions de l’exercice

Parcourez la liste new_text qui contient les phrases.
Affectez la valeur 0 à l’index si le mot n’est pas trouvé dans le dictionnaire.
Ajoutez la phrase convertie en index à la variable new_text_split.
Convertissez les index en texte à l’aide du dictionnaire index_to_word.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Loop through the sentences and get indexes
new_text_split = []
for sentence in ____:
    sent_split = []
    for wd in sentence.split(' '):
        index = word_to_index.get(wd, ____)
        sent_split.append(index)
    new_text_split.append(____)

# Print the first sentence's indexes
print(new_text_split[0])

# Print the sentence converted using the dictionary
print(' '.join([index_to_word[____] for index in new_text_split[0]]))

Modifier et exécuter le code