CommencerCommencer gratuitement

Pré-traiter les données

Vous avez appris les différences relatives au prétraitement des données dans le cas d'une classification multi-classes. Mettons cela en pratique en prétraitant les données en prévision de la création d'un modèle de classification multi-classes simple.

L'ensemble de données est chargé dans la variable news_dataset et possède les attributs suivants :

  • news_dataset.data: tableau contenant des textes
  • news_dataset.target: tableau contenant les catégories cibles sous forme d'index numériques

Les données de l'échantillon contiennent 5 000 observations.

Cet exercice fait partie du cours

Réseaux neuronaux récurrents (RNN) pour la modélisation du langage avec Keras

Afficher le cours

Instructions

  • Instancier la classe Tokenizer sur la variable tokenizer.
  • Ajustez la variable d'tokenizer aux données textuelles.
  • Utilisez la méthode « .texts_to_sequences() » sur les données textuelles.
  • Veuillez utiliser la fonction « to_categorical() » pour préparer les index cibles.

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

# Create and fit tokenizer
tokenizer = ____
tokenizer.fit_on_texts(____)

# Prepare the data
prep_data = tokenizer.____(news_dataset.data)
prep_data = pad_sequences(prep_data, maxlen=200)

# Prepare the labels
target_labels = to_categorical(____)

# Print the shapes
print(prep_data.shape)
print(target_labels.shape)
Modifier et exécuter le code