Anatomía de un modelo de aprendizaje automático
Ahora, reforzarás tu comprensión de cómo influyen los datos en el rendimiento del modelo. Trabajarás con el conjunto de datos de reservas de Airbnb (en el archivo booking.csv
). El conjunto de datos es adecuado para tareas de clasificación para predecir si alguien cancelaría una reserva. Contiene varias columnas numéricas y categóricas.
Dividirás el conjunto de datos proporcionado en tres muestras mutuamente excluyentes - train_A.csv
, train_B.csv
, y test.csv
- utilizando el script split_dataset.py
. Además, para cada conjunto de datos de entrenamiento, ejecutarás la tubería de procesamiento de datos y entrenamiento del modelo para entrenar un modelo clasificador Random Forest y probar su rendimiento en el conjunto de prueba utilizando model_training.py
. Los hiperparámetros definidos en params.json
son coherentes en ambas ejecuciones.
Los scripts de Python están diseñados para aceptar argumentos de la línea de comandos y ejecutarse a través del shell. No dudes en explorar estos guiones para enriquecer tu comprensión.
Este ejercicio forma parte del curso
Introducción al control de versiones de datos con DVC
Instrucciones de ejercicio
- Divide el conjunto de datos ejecutando el comando
python3 split_dataset.py booking.csv train_A.csv train_B.csv test.csv
en el shell del editor. - Entrena y analiza el rendimiento del modelo utilizando el primer conjunto de entrenamiento ejecutando
python3 model_training.py <params_file> <training_file> <test_file>
con los nombres de archivo adecuados. Toma nota de las métricas. - Entrena y analiza el rendimiento del modelo utilizando el segundo conjunto de entrenamiento ejecutando
python3 model_training.py <params_file> <training_file> <test_file>
con los nombres de archivo adecuados. Compara las métricas con la ejecución anterior.
Ejercicio interactivo práctico
Convierte la teoría en acción con uno de nuestros ejercicios interactivos
