Anatomia de um modelo de machine learning
Agora, você reforçará sua compreensão de como os dados influenciam o desempenho do modelo. Você trabalhará com o conjunto de dados de reservas do Airbnb (no arquivo booking.csv
). O conjunto de dados é adequado para tarefas de classificação para prever se alguém cancelaria uma reserva. Ele contém várias colunas numéricas e categóricas.
Você dividirá o conjunto de dados fornecido em três amostras mutuamente exclusivas - train_A.csv
, train_B.csv
e test.csv
- usando o script split_dataset.py
. Além disso, para cada conjunto de dados de treinamento, você executará o processamento de dados e o pipeline de treinamento de modelos para treinar um modelo de classificador Random Forest e testar seu desempenho no conjunto de testes usando model_training.py
. Os hiperparâmetros definidos em params.json
são consistentes em ambas as execuções.
Os scripts Python foram projetados para aceitar argumentos de linha de comando e serem executados via shell. Sinta-se à vontade para explorar esses scripts para enriquecer sua compreensão.
Este exercício faz parte do curso
Introdução ao controle de versão de dados com DVC
Instruções de exercício
- Divida o conjunto de dados executando o comando
python3 split_dataset.py booking.csv train_A.csv train_B.csv test.csv
no shell do editor. - Treine e analise o desempenho do modelo usando o primeiro conjunto de treinamento, executando
python3 model_training.py <params_file> <training_file> <test_file>
com nomes de arquivos adequados. Anote as métricas. - Treine e analise o desempenho do modelo usando o segundo conjunto de treinamento, executando
python3 model_training.py <params_file> <training_file> <test_file>
com os nomes de arquivo adequados. Compare as métricas com a execução anterior.
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
