Pré-traiter les données
Vous avez appris les différences relatives au prétraitement des données dans le cas d'une classification multi-classes. Mettons cela en pratique en prétraitant les données en prévision de la création d'un modèle de classification multi-classes simple.
L'ensemble de données est chargé dans la variable news_dataset et possède les attributs suivants :
news_dataset.data: tableau contenant des textesnews_dataset.target: tableau contenant les catégories cibles sous forme d'index numériques
Les données de l'échantillon contiennent 5 000 observations.
Cet exercice fait partie du cours
Réseaux neuronaux récurrents (RNN) pour la modélisation du langage avec Keras
Instructions
- Instancier la classe
Tokenizersur la variabletokenizer. - Ajustez la variable d'
tokenizeraux données textuelles. - Utilisez la méthode «
.texts_to_sequences()» sur les données textuelles. - Veuillez utiliser la fonction «
to_categorical()» pour préparer les index cibles.
Exercice interactif pratique
Essayez cet exercice en complétant cet exemple de code.
# Create and fit tokenizer
tokenizer = ____
tokenizer.fit_on_texts(____)
# Prepare the data
prep_data = tokenizer.____(news_dataset.data)
prep_data = pad_sequences(prep_data, maxlen=200)
# Prepare the labels
target_labels = to_categorical(____)
# Print the shapes
print(prep_data.shape)
print(target_labels.shape)