ComenzarEmpieza gratis

Anatomía de un modelo de aprendizaje automático

Ahora, reforzarás tu comprensión de cómo influyen los datos en el rendimiento del modelo. Trabajarás con el conjunto de datos de reservas de Airbnb (en el archivo booking.csv). El conjunto de datos es adecuado para tareas de clasificación para predecir si alguien cancelaría una reserva. Contiene varias columnas numéricas y categóricas. Dividirás el conjunto de datos proporcionado en tres muestras mutuamente excluyentes - train_A.csv, train_B.csv, y test.csv - utilizando el script split_dataset.py. Además, para cada conjunto de datos de entrenamiento, ejecutarás la tubería de procesamiento de datos y entrenamiento del modelo para entrenar un modelo clasificador Random Forest y probar su rendimiento en el conjunto de prueba utilizando model_training.py. Los hiperparámetros definidos en params.json son coherentes en ambas ejecuciones.

Los scripts de Python están diseñados para aceptar argumentos de la línea de comandos y ejecutarse a través del shell. No dudes en explorar estos guiones para enriquecer tu comprensión.

Este ejercicio forma parte del curso

Introducción al control de versiones de datos con DVC

Ver curso

Instrucciones de ejercicio

  • Divide el conjunto de datos ejecutando el comando python3 split_dataset.py booking.csv train_A.csv train_B.csv test.csv en el shell del editor.
  • Entrena y analiza el rendimiento del modelo utilizando el primer conjunto de entrenamiento ejecutando python3 model_training.py <params_file> <training_file> <test_file> con los nombres de archivo adecuados. Toma nota de las métricas.
  • Entrena y analiza el rendimiento del modelo utilizando el segundo conjunto de entrenamiento ejecutando python3 model_training.py <params_file> <training_file> <test_file> con los nombres de archivo adecuados. Compara las métricas con la ejecución anterior.

Ejercicio interactivo práctico

Convierte la teoría en acción con uno de nuestros ejercicios interactivos

Empieza a hacer ejercicio