Comece agoraComece grátis

Anatomia de um Modelo de Machine Learning

Agora, você vai reforçar seu entendimento de como os dados influenciam o desempenho do modelo. Você vai trabalhar com o conjunto de dados de reservas do Airbnb (no arquivo booking.csv). Esse conjunto é adequado para tarefas de classificação para prever se alguém cancelaria uma reserva. Ele contém várias colunas numéricas e categóricas. Você dividirá o conjunto de dados em três amostras mutuamente exclusivas — train_A.csv, train_B.csv e test.csv — usando o script split_dataset.py. Em seguida, para cada conjunto de treino, você executará o pipeline de processamento de dados e treinamento do modelo para treinar um modelo Random Forest Classifier e testar seu desempenho no conjunto de teste usando model_training.py. Os hiperparâmetros definidos em params.json são os mesmos em ambas as execuções.

Os scripts em Python foram projetados para aceitar argumentos de linha de comando e rodar via shell. Fique à vontade para explorá-los e aprofundar seu entendimento.

Este exercicio faz parte do curso

Introdução ao Controle de Versão de Dados com DVC

Ver curso

exercicio interativo prático

Transforme teoria em prática com um dos nossos exercicio interativos

Iniciar exercicio