Pré-traiter les données
Vous avez appris les différences relatives au prétraitement des données dans le cas d'une classification multi-classes. Mettons cela en pratique en prétraitant les données en prévision de la création d'un modèle de classification multi-classes simple.
L'ensemble de données est chargé dans la variable news_dataset
et possède les attributs suivants :
news_dataset.data
: tableau contenant des textesnews_dataset.target
: tableau contenant les catégories cibles sous forme d'index numériques
Les données de l'échantillon contiennent 5 000 observations.
Cet exercice fait partie du cours
Réseaux neuronaux récurrents (RNN) pour la modélisation du langage avec Keras
Instructions
- Instancier la classe
Tokenizer
sur la variabletokenizer
. - Ajustez la variable d'
tokenizer
aux données textuelles. - Utilisez la méthode «
.texts_to_sequences()
» sur les données textuelles. - Veuillez utiliser la fonction «
to_categorical()
» pour préparer les index cibles.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create and fit tokenizer
tokenizer = ____
tokenizer.fit_on_texts(____)
# Prepare the data
prep_data = tokenizer.____(news_dataset.data)
prep_data = pad_sequences(prep_data, maxlen=200)
# Prepare the labels
target_labels = to_categorical(____)
# Print the shapes
print(prep_data.shape)
print(target_labels.shape)