Preprocesar datos
Has aprendido las diferencias en el preprocesamiento de datos en el caso de la clasificación multiclase. Pongámoslo en práctica preprocesando los datos con vistas a crear un modelo sencillo de clasificación multiclase.
El conjunto de datos se carga en la variable news_dataset y tiene los siguientes atributos:
news_dataset.data: arreglo con textosnews_dataset.target: arreglo con categorías objetivo como índices numéricos
Los datos de muestra contienen 5000 observaciones.
Este ejercicio forma parte del curso
Redes neuronales recurrentes (RNN) para el modelado del lenguaje con Keras
Instrucciones del ejercicio
- Instancia la clase «
Tokenizer» en la variable «tokenizer». - Ajusta la variable «
tokenizer» a los datos de texto. - Utiliza el método «
.texts_to_sequences()» en los datos de texto. - Utiliza la función «
to_categorical()» para preparar los índices de destino.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create and fit tokenizer
tokenizer = ____
tokenizer.fit_on_texts(____)
# Prepare the data
prep_data = tokenizer.____(news_dataset.data)
prep_data = pad_sequences(prep_data, maxlen=200)
# Prepare the labels
target_labels = to_categorical(____)
# Print the shapes
print(prep_data.shape)
print(target_labels.shape)