EmpezarEmpieza gratis

Anatomía de un modelo de Machine Learning

Ahora vas a afianzar cómo los datos influyen en el rendimiento del modelo. Trabajarás con el conjunto de datos de reservas de Airbnb (en el archivo booking.csv). Este conjunto de datos está pensado para tareas de clasificación que predicen si alguien cancelará una reserva. Contiene varias columnas numéricas y categóricas. Dividirás el conjunto de datos proporcionado en tres muestras mutuamente excluyentes: train_A.csv, train_B.csv y test.csv, usando el script split_dataset.py. Después, para cada conjunto de entrenamiento, ejecutarás la canalización de procesamiento de datos y entrenamiento del modelo para entrenar un clasificador de Random Forest y evaluar su rendimiento en el conjunto de prueba usando model_training.py. Los hiperparámetros definidos en params.json son los mismos en ambas ejecuciones.

Los scripts de Python están diseñados para aceptar argumentos por línea de comandos y ejecutarse desde la shell. Si quieres, explora estos scripts para profundizar en tu comprensión.

Este ejercicio forma parte del curso

Introducción al versionado de datos con DVC

Ver curso

ejercicio interactivo práctico

Convierte la teoría en práctica con uno de nuestros ejercicios interactivos

Empezar ejercicio