ComeçarComece gratuitamente

Anatomia de um modelo de machine learning

Agora, você reforçará sua compreensão de como os dados influenciam o desempenho do modelo. Você trabalhará com o conjunto de dados de reservas do Airbnb (no arquivo booking.csv). O conjunto de dados é adequado para tarefas de classificação para prever se alguém cancelaria uma reserva. Ele contém várias colunas numéricas e categóricas. Você dividirá o conjunto de dados fornecido em três amostras mutuamente exclusivas - train_A.csv, train_B.csv e test.csv - usando o script split_dataset.py. Além disso, para cada conjunto de dados de treinamento, você executará o processamento de dados e o pipeline de treinamento de modelos para treinar um modelo de classificador Random Forest e testar seu desempenho no conjunto de testes usando model_training.py. Os hiperparâmetros definidos em params.json são consistentes em ambas as execuções.

Os scripts Python foram projetados para aceitar argumentos de linha de comando e serem executados via shell. Sinta-se à vontade para explorar esses scripts para enriquecer sua compreensão.

Este exercício faz parte do curso

Introdução ao controle de versão de dados com DVC

Ver Curso

Instruções de exercício

  • Divida o conjunto de dados executando o comando python3 split_dataset.py booking.csv train_A.csv train_B.csv test.csv no shell do editor.
  • Treine e analise o desempenho do modelo usando o primeiro conjunto de treinamento, executando python3 model_training.py <params_file> <training_file> <test_file> com nomes de arquivos adequados. Anote as métricas.
  • Treine e analise o desempenho do modelo usando o segundo conjunto de treinamento, executando python3 model_training.py <params_file> <training_file> <test_file> com os nomes de arquivo adequados. Compare as métricas com a execução anterior.

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Comece o exercício