Processar os dados antes
Você aprendeu as diferenças no pré-processamento dos dados no caso da classificação multiclasse. Vamos colocar isso em prática pré-processando os dados antes de criar um modelo simples de classificação multiclasse.
O conjunto de dados é carregado na variável “ news_dataset ” e tem os seguintes atributos:
news_dataset.data: matriz com textosnews_dataset.target: matriz com categorias-alvo como índices numéricos
Os dados da amostra têm 5.000 observações.
Este exercício faz parte do curso
Redes Neurais Recorrentes (RNNs) para Modelagem de Linguagem com Keras
Instruções do exercício
- Instancie a classe
Tokenizerna variáveltokenizer. - Ajuste a variável “
tokenizer” nos dados de texto. - Use o método “
.texts_to_sequences()” nos dados de texto. - Use a função
to_categorical()para preparar os índices de destino.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create and fit tokenizer
tokenizer = ____
tokenizer.fit_on_texts(____)
# Prepare the data
prep_data = tokenizer.____(news_dataset.data)
prep_data = pad_sequences(prep_data, maxlen=200)
# Prepare the labels
target_labels = to_categorical(____)
# Print the shapes
print(prep_data.shape)
print(target_labels.shape)