Anatomía de un modelo de Machine Learning
Ahora vas a afianzar cómo los datos influyen en el rendimiento del modelo. Trabajarás con el conjunto de datos de reservas de Airbnb (en el archivo booking.csv). Este conjunto de datos está pensado para tareas de clasificación que predicen si alguien cancelará una reserva. Contiene varias columnas numéricas y categóricas.
Dividirás el conjunto de datos proporcionado en tres muestras mutuamente excluyentes: train_A.csv, train_B.csv y test.csv, usando el script split_dataset.py. Después, para cada conjunto de entrenamiento, ejecutarás la canalización de procesamiento de datos y entrenamiento del modelo para entrenar un clasificador de Random Forest y evaluar su rendimiento en el conjunto de prueba usando model_training.py. Los hiperparámetros definidos en params.json son los mismos en ambas ejecuciones.
Los scripts de Python están diseñados para aceptar argumentos por línea de comandos y ejecutarse desde la shell. Si quieres, explora estos scripts para profundizar en tu comprensión.
Este ejercicio forma parte del curso
Introducción al versionado de datos con DVC
ejercicio interactivo práctico
Convierte la teoría en práctica con uno de nuestros ejercicios interactivos
Empezar ejercicio