Transformer un nouveau texte
Dans cet exercice, vous allez transformer un nouveau texte en séquences d'index numériques dans les dictionnaires créés précédemment.
Cela est utile lorsque vous disposez déjà d'un modèle entraîné et que vous souhaitez l'appliquer à un nouvel ensemble de données. Les étapes de prétraitement effectuées sur les données d'entraînement doivent également être appliquées au nouveau texte afin que le modèle puisse effectuer des prédictions/classifications.
Ici, vous utiliserez également un jeton spécial '<UKN/>'
pour représenter les mots qui ne figurent pas dans le vocabulaire. En général, ces jetons spéciaux sont les premiers index des dictionnaires, la position 0
.
Les variables word_to_index
, index_to_word
et vocabulary
sont déjà chargées dans l'environnement. De plus, la variable contenant le nouveau texte est également chargée en tant qu'new_text
. Le nouveau texte a été imprimé pour que vous puissiez le consulter.
Cet exercice fait partie du cours
Réseaux neuronaux récurrents (RNN) pour la modélisation du langage avec Keras
Instructions
- Parcourez la liste
new_text
contenant les phrases. - Définissez l'index sur «
0
» si le mot n'est pas trouvé dans le dictionnaire. - Ajoutez la phrase avec les index à la variable
new_text_split
. - Convertissez les index en texte à l'aide du dictionnaire «
index_to_word
».
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Loop through the sentences and get indexes
new_text_split = []
for sentence in ____:
sent_split = []
for wd in sentence.split(' '):
index = word_to_index.get(wd, ____)
sent_split.append(index)
new_text_split.append(____)
# Print the first sentence's indexes
print(new_text_split[0])
# Print the sentence converted using the dictionary
print(' '.join([index_to_word[____] for index in new_text_split[0]]))