CommencerCommencer gratuitement

Prétraitement Keras

Le deuxième module le plus important de Keras est keras.preprocessing. Vous découvrirez comment utiliser les modules et les fonctions les plus importants pour préparer les données brutes afin qu'elles aient la forme requise pour être saisies. Keras fournit des fonctionnalités qui remplacent l'approche du dictionnaire que vous avez apprise précédemment.

Vous utiliserez le module keras.preprocessing.text.Tokenizer pour créer un dictionnaire de mots à l'aide de la méthode .fit_on_texts() et convertir les textes en identifiants numériques représentant l'index de chaque mot dans le dictionnaire à l'aide de la méthode .texts_to_sequences().

Ensuite, veuillez utiliser la fonction « .pad_sequences() » disponible à l'adresse keras.preprocessing.sequence pour que toutes les séquences aient la même taille (nécessaire pour le modèle) en ajoutant des zéros aux petits textes et en coupant les grands.

Cet exercice fait partie du cours

Réseaux neuronaux récurrents (RNN) pour la modélisation du langage avec Keras

Afficher le cours

Instructions

  • Veuillez importer Tokenizer et pad_sequences à partir des modules pertinents.
  • Ajustez l'objet d'tokenizer aux données d'échantillon stockées dans texts.
  • Transformez les textes en séquences d'index numériques en utilisant la méthode .texts_to_sequences().
  • Veuillez ajuster la taille des textes en les remplissant.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Import relevant classes/functions
from tensorflow.keras.preprocessing.text import ____
from tensorflow.keras.preprocessing.sequence import ____

# Build the dictionary of indexes
tokenizer = Tokenizer()
tokenizer.fit_on_texts(____)

# Change texts into sequence of indexes
texts_numeric = tokenizer.____(texts)
print("Number of words in the sample texts: ({0}, {1})".format(len(texts_numeric[0]), len(texts_numeric[1])))

# Pad the sequences
texts_pad = ____(texts_numeric, 60)
print("Now the texts have fixed length: 60. Let's see the first one: \n{0}".format(texts_pad[0]))
Modifier et exécuter le code