ComenzarEmpieza gratis

Creación de un valor booleano

Considera que estás modelando una pregunta de sí o no: ¿el vuelo llega tarde? Sin embargo, tus datos contienen el retraso de llegada en minutos de cada vuelo. Por tanto, tendrás que crear una columna booleana que indique si el vuelo llegó tarde o no.

Este ejercicio forma parte del curso

Introducción a PySpark

Ver curso

Instrucciones del ejercicio

  • Utiliza el método .withColumn() para crear la columna is_late. Esta columna es igual a model_data.arr_delay > 0.
  • Convierte esta columna en una columna entera para poder utilizarla en tu modelo y nómbrala label (éste es el nombre por defecto de la variable de respuesta en las rutinas de machine learning de Spark).
  • Filtra los valores omitidos (ya se ha hecho por ti).

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Create is_late
model_data = model_data.withColumn("is_late", ____)

# Convert to an integer
model_data = model_data.withColumn("label", ____)

# Remove missing values
model_data = model_data.filter("arr_delay is not NULL and dep_delay is not NULL and air_time is not NULL and plane_year is not NULL")
Editar y ejecutar código