Prétraiter les données

Vous avez appris les différences de prétraitement des données dans le cas d’une classification multi-classes. Mettons cela en pratique en préparant les données en vue de créer un simple modèle de classification multi-classes.

Le jeu de données est chargé dans la variable news_dataset et possède les attributs suivants :

news_dataset.data : tableau de textes
news_dataset.target : tableau des catégories cibles sous forme d’index numériques

L’échantillon contient 5 000 observations.

Cet exercice fait partie du cours

<cours>Réseaux de neurones récurrents (RNN) pour la modélisation du langage avec Keras</cours>

Voir le cours

Instructions de l’exercice

Instanciez la classe Tokenizer dans la variable tokenizer.
Ajustez la variable tokenizer sur les données textuelles.
Utilisez la méthode .texts_to_sequences() sur les données textuelles.
Utilisez la fonction to_categorical() pour préparer les index cibles.

Exercice interactif pratique

Essayez cet exercice en complétant ce code d’exemple.

# Create and fit tokenizer
tokenizer = ____
tokenizer.fit_on_texts(____)

# Prepare the data
prep_data = tokenizer.____(news_dataset.data)
prep_data = pad_sequences(prep_data, maxlen=200)

# Prepare the labels
target_labels = to_categorical(____)

# Print the shapes
print(prep_data.shape)
print(target_labels.shape)

Modifier et exécuter le code