Prétraiter les données
Vous avez appris les différences de prétraitement des données dans le cas d’une classification multi-classes. Mettons cela en pratique en préparant les données en vue de créer un simple modèle de classification multi-classes.
Le jeu de données est chargé dans la variable news_dataset et possède les attributs suivants :
news_dataset.data: tableau de textesnews_dataset.target: tableau des catégories cibles sous forme d’index numériques
L’échantillon contient 5 000 observations.
Cet exercice fait partie du cours
Réseaux de neurones récurrents (RNN) pour la modélisation du langage avec Keras
Instructions
- Instanciez la classe
Tokenizerdans la variabletokenizer. - Ajustez la variable
tokenizersur les données textuelles. - Utilisez la méthode
.texts_to_sequences()sur les données textuelles. - Utilisez la fonction
to_categorical()pour préparer les index cibles.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create and fit tokenizer
tokenizer = ____
tokenizer.fit_on_texts(____)
# Prepare the data
prep_data = tokenizer.____(news_dataset.data)
prep_data = pad_sequences(prep_data, maxlen=200)
# Prepare the labels
target_labels = to_categorical(____)
# Print the shapes
print(prep_data.shape)
print(target_labels.shape)