Anatomia de um Modelo de Machine Learning
Agora, você vai reforçar seu entendimento de como os dados influenciam o desempenho do modelo. Você vai trabalhar com o conjunto de dados de reservas do Airbnb (no arquivo booking.csv). Esse conjunto é adequado para tarefas de classificação para prever se alguém cancelaria uma reserva. Ele contém várias colunas numéricas e categóricas.
Você dividirá o conjunto de dados em três amostras mutuamente exclusivas — train_A.csv, train_B.csv e test.csv — usando o script split_dataset.py. Em seguida, para cada conjunto de treino, você executará o pipeline de processamento de dados e treinamento do modelo para treinar um modelo Random Forest Classifier e testar seu desempenho no conjunto de teste usando model_training.py. Os hiperparâmetros definidos em params.json são os mesmos em ambas as execuções.
Os scripts em Python foram projetados para aceitar argumentos de linha de comando e rodar via shell. Fique à vontade para explorá-los e aprofundar seu entendimento.
Este exercício faz parte do curso
Introdução ao Controle de Versão de Dados com DVC
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
Começar o exercício