División entrenamiento/prueba

Para evaluar objetivamente un modelo de machine learning, tienes que poder probarlo con un conjunto independiente de datos. No puedes utilizar los mismos datos que utilizaste para entrenar el modelo: ¡por supuesto que el modelo funcionará (relativamente) bien con esos datos!

Dividirás los datos en dos componentes:

datos de entrenamiento (utilizados para entrenar el modelo) y
datos de prueba (utilizados para probar el modelo).

Nota: A partir de aquí trabajarás con un subconjunto más pequeño de los datos de los vuelos, lo que sólo hace que los ejercicios se ejecuten más rápidamente.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

Divide aleatoriamente los datos de flights en dos conjuntos con proporciones 80:20. Para la repetibilidad, establece una semilla de número aleatorio de 43 para la división.
Comprueba que los datos de entrenamiento tienen aproximadamente el 80% de los registros de los datos originales.

ejercicio interactivo práctico

Prueba este ejercicio completando este código de ejemplo.

# Split into training and testing sets in a 80:20 ratio
flights_train, flights_test = flights.____(____, ____)

# Check that training set has around 80% of records
training_ratio = flights_train.____() / ____.____()
print(training_ratio)

Editar y ejecutar código