ComenzarEmpieza gratis

Preprocesar datos

Has aprendido las diferencias en el preprocesamiento de datos en el caso de la clasificación multiclase. Pongámoslo en práctica preprocesando los datos con vistas a crear un modelo sencillo de clasificación multiclase.

El conjunto de datos se carga en la variable news_dataset y tiene los siguientes atributos:

  • news_dataset.data: arreglo con textos
  • news_dataset.target: arreglo con categorías objetivo como índices numéricos

Los datos de muestra contienen 5000 observaciones.

Este ejercicio forma parte del curso

Redes neuronales recurrentes (RNN) para el modelado del lenguaje con Keras

Ver curso

Instrucciones del ejercicio

  • Instancia la clase « Tokenizer » en la variable « tokenizer ».
  • Ajusta la variable « tokenizer » a los datos de texto.
  • Utiliza el método « .texts_to_sequences() » en los datos de texto.
  • Utiliza la función « to_categorical() » para preparar los índices de destino.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create and fit tokenizer
tokenizer = ____
tokenizer.fit_on_texts(____)

# Prepare the data
prep_data = tokenizer.____(news_dataset.data)
prep_data = pad_sequences(prep_data, maxlen=200)

# Prepare the labels
target_labels = to_categorical(____)

# Print the shapes
print(prep_data.shape)
print(target_labels.shape)
Editar y ejecutar código