Préparation du texte à saisir
Vous avez vu dans la vidéo comment préparer les textes d'entrée et de sortie. Cet exercice vise à illustrer une pratique courante qui consiste à utiliser la longueur maximale des phrases pour les remplir toutes, de manière à ne perdre aucune information.
Étant donné que les modèles RNN nécessitent que les entrées aient la même taille, il est possible de compléter toutes les phrases et d'ajouter des zéros aux phrases plus courtes, sans couper les plus longues.
De plus, vous utiliserez des mots plutôt que des caractères pour représenter les jetons, ce qui est une approche courante pour les modèles NMT.
Les textes portugais sont chargés dans la variable « pt_sentences
» et un tokenizer adapté est défini dans la variable « input_tokenizer
».
Cet exercice fait partie du cours
Réseaux neuronaux récurrents (RNN) pour la modélisation du langage avec Keras
Instructions
- Utilisez la méthode «
.split()
» sur chaque phrase pour la diviser en espaces blancs et obtenir le nombre de mots dans la phrase. - Utilisez la méthode
.texts_to_sequences()
pour transformer du texte en une séquence d'index. - Utilisez la longueur maximale des phrases obtenue pour les compléter.
- Veuillez imprimer la première phrase transformée.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Get maximum length of the sentences
pt_length = max([len(sentence.____) for sentence in pt_sentences])
# Transform text to sequence of numerical indexes
X = input_tokenizer.____(pt_sentences)
# Pad the sequences
X = pad_sequences(X, maxlen=____, padding='post')
# Print first sentence
print(pt_sentences[0])
# Print transformed sentence
print(____)