Transformer un nouveau texte
Dans cet exercice, vous allez transformer un nouveau texte en séquences d’index numériques à partir des dictionnaires créés précédemment.
C’est utile lorsque vous avez déjà un modèle entraîné et que vous souhaitez l’appliquer à un nouveau jeu de données. Les étapes de prétraitement réalisées sur les données d’entraînement doivent aussi être appliquées au nouveau texte, afin que le modèle puisse effectuer des prédictions/classifications.
Ici, vous allez également utiliser un jeton spécial '<UKN/>' pour représenter les mots absents du vocabulaire. En général, ces jetons spéciaux correspondent aux premiers index des dictionnaires, à la position 0.
Les variables word_to_index, index_to_word et vocabulary sont déjà chargées dans l’environnement. De plus, la variable contenant le nouveau texte est chargée sous le nom new_text. Le nouveau texte a été affiché pour que vous puissiez le consulter.
Cet exercice fait partie du cours
Réseaux de neurones récurrents (RNN) pour la modélisation du langage avec Keras
Instructions
- Parcourez la liste
new_textqui contient les phrases. - Affectez la valeur
0à l’index si le mot n’est pas trouvé dans le dictionnaire. - Ajoutez la phrase convertie en index à la variable
new_text_split. - Convertissez les index en texte à l’aide du dictionnaire
index_to_word.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Loop through the sentences and get indexes
new_text_split = []
for sentence in ____:
sent_split = []
for wd in sentence.split(' '):
index = word_to_index.get(wd, ____)
sent_split.append(index)
new_text_split.append(____)
# Print the first sentence's indexes
print(new_text_split[0])
# Print the sentence converted using the dictionary
print(' '.join([index_to_word[____] for index in new_text_split[0]]))