Anatomia de um Modelo de Machine Learning

Agora, você vai reforçar seu entendimento de como os dados influenciam o desempenho do modelo. Você vai trabalhar com o conjunto de dados de reservas do Airbnb (no arquivo booking.csv). Esse conjunto é adequado para tarefas de classificação para prever se alguém cancelaria uma reserva. Ele contém várias colunas numéricas e categóricas. Você dividirá o conjunto de dados em três amostras mutuamente exclusivas — train_A.csv, train_B.csv e test.csv — usando o script split_dataset.py. Em seguida, para cada conjunto de treino, você executará o pipeline de processamento de dados e treinamento do modelo para treinar um modelo Random Forest Classifier e testar seu desempenho no conjunto de teste usando model_training.py. Os hiperparâmetros definidos em params.json são os mesmos em ambas as execuções.

Os scripts em Python foram projetados para aceitar argumentos de linha de comando e rodar via shell. Fique à vontade para explorá-los e aprofundar seu entendimento.

Este exercicio faz parte do curso

Introdução ao Controle de Versão de Dados com DVC

Ver curso

exercicio interativo prático

Transforme teoria em prática com um dos nossos exercicio interativos

Iniciar exercicio

Introdução ao Controle de Versão de Dados com DVC

IntermediárioNível de habilidade

4.8+

388 reviews

Este capítulo oferece uma introdução abrangente ao Data Version Control (DVC), uma ferramenta essencial para o versionamento de dados em Machine Learning. Você vai explorar a motivação por trás do versionamento de dados, entender suas diferenças em relação ao versionamento de código e experimentar um problema simples de classificação. Também vai revisar comandos básicos do Git, conhecer o DVC e praticar a criação de um repositório. O capítulo termina com uma visão geral dos recursos e casos de uso do DVC, incluindo versionamento de dados e modelos, CI/CD para Machine Learning, rastreamento de experimentos, pipelines e mais.

Exercise 1: Motivação para Versionamento de Dados Exercise 2: Anatomia de um Modelo de Machine Learning

Exercicio Atual

Exercise 3: Diferenças entre versionamento de dados e de código Exercise 4: Entendendo hiperparâmetros Exercise 5: Introdução ao DVC Exercise 6: Trabalhando com o Git CLI Exercise 7: Revisão da CLI do DVC Exercise 8: Recursos do DVC e casos de uso Exercise 9: Pipelines do DVC Exercise 10: CI/CD para machine learning