ComeçarComece de graça

Processar os dados antes

Você aprendeu as diferenças no pré-processamento dos dados no caso da classificação multiclasse. Vamos colocar isso em prática pré-processando os dados antes de criar um modelo simples de classificação multiclasse.

O conjunto de dados é carregado na variável “ news_dataset ” e tem os seguintes atributos:

  • news_dataset.data: matriz com textos
  • news_dataset.target: matriz com categorias-alvo como índices numéricos

Os dados da amostra têm 5.000 observações.

Este exercício faz parte do curso

Redes Neurais Recorrentes (RNNs) para Modelagem de Linguagem com Keras

Ver curso

Instruções do exercício

  • Instancie a classe Tokenizer na variável tokenizer.
  • Ajuste a variável “ tokenizer ” nos dados de texto.
  • Use o método “ .texts_to_sequences() ” nos dados de texto.
  • Use a função to_categorical() para preparar os índices de destino.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create and fit tokenizer
tokenizer = ____
tokenizer.fit_on_texts(____)

# Prepare the data
prep_data = tokenizer.____(news_dataset.data)
prep_data = pad_sequences(prep_data, maxlen=200)

# Prepare the labels
target_labels = to_categorical(____)

# Print the shapes
print(prep_data.shape)
print(target_labels.shape)
Editar e executar o código