ComeçarComece de graça

Anatomia de um Modelo de Machine Learning

Agora, você vai reforçar seu entendimento de como os dados influenciam o desempenho do modelo. Você vai trabalhar com o conjunto de dados de reservas do Airbnb (no arquivo booking.csv). Esse conjunto é adequado para tarefas de classificação para prever se alguém cancelaria uma reserva. Ele contém várias colunas numéricas e categóricas. Você dividirá o conjunto de dados em três amostras mutuamente exclusivas — train_A.csv, train_B.csv e test.csv — usando o script split_dataset.py. Em seguida, para cada conjunto de treino, você executará o pipeline de processamento de dados e treinamento do modelo para treinar um modelo Random Forest Classifier e testar seu desempenho no conjunto de teste usando model_training.py. Os hiperparâmetros definidos em params.json são os mesmos em ambas as execuções.

Os scripts em Python foram projetados para aceitar argumentos de linha de comando e rodar via shell. Fique à vontade para explorá-los e aprofundar seu entendimento.

Este exercício faz parte do curso

Introdução ao Controle de Versão de Dados com DVC

Ver curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Começar o exercício