ComenzarEmpieza gratis

División entre entrenamiento y prueba

Para evaluar objetivamente un modelo de machine learning, es necesario poder probarlo con un conjunto de datos independiente. No puedes utilizar los mismos datos que utilizaste para entrenar el modelo: ¡por supuesto que el modelo funcionará (relativamente) bien con esos datos!

Dividirás los datos en dos componentes:

  • datos de entrenamiento (utilizados para entrenar el modelo) y
  • datos de prueba (utilizados para probar el modelo).

Nota: A partir de aquí, trabajarás con un subconjunto más pequeño de los datos de vuelos, lo que hará que los ejercicios se ejecuten más rápidamente.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Divide aleatoriamente los datos flights en dos conjuntos con una proporción de 80:20. Para garantizar la repetibilidad, establece un número aleatorio inicial de 43 para la división.
  • Comprueba que los datos de entrenamiento contienen aproximadamente el 80 % de los registros de los datos originales.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)

# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)
Editar y ejecutar código