Creación de un valor booleano
Considera que estás modelando una pregunta de sí o no: ¿el vuelo llega tarde? Sin embargo, tus datos contienen el retraso de llegada en minutos de cada vuelo. Por tanto, tendrás que crear una columna booleana que indique si el vuelo llegó tarde o no.
Este ejercicio forma parte del curso
Introducción a PySpark
Instrucciones del ejercicio
- Utiliza el método
.withColumn()
para crear la columnais_late
. Esta columna es igual amodel_data.arr_delay > 0
. - Convierte esta columna en una columna entera para poder utilizarla en tu modelo y nómbrala
label
(éste es el nombre por defecto de la variable de respuesta en las rutinas de machine learning de Spark). - Filtra los valores omitidos (ya se ha hecho por ti).
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Create is_late
model_data = model_data.withColumn("is_late", ____)
# Convert to an integer
model_data = model_data.withColumn("label", ____)
# Remove missing values
model_data = model_data.filter("arr_delay is not NULL and dep_delay is not NULL and air_time is not NULL and plane_year is not NULL")