División entre entrenamiento y prueba
Para evaluar objetivamente un modelo de machine learning, es necesario poder probarlo con un conjunto de datos independiente. No puedes utilizar los mismos datos que utilizaste para entrenar el modelo: ¡por supuesto que el modelo funcionará (relativamente) bien con esos datos!
Dividirás los datos en dos componentes:
- datos de entrenamiento (utilizados para entrenar el modelo) y
- datos de prueba (utilizados para probar el modelo).
Nota: A partir de aquí, trabajarás con un subconjunto más pequeño de los datos de vuelos, lo que hará que los ejercicios se ejecuten más rápidamente.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones del ejercicio
- Divide aleatoriamente los datos
flights
en dos conjuntos con una proporción de 80:20. Para garantizar la repetibilidad, establece un número aleatorio inicial de 43 para la división. - Comprueba que los datos de entrenamiento contienen aproximadamente el 80 % de los registros de los datos originales.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)
# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)