ComenzarEmpieza gratis

Manipulación de columnas

La Administración Federal de Aviación (FAA) considera que un vuelo está "retrasado" cuando llega 15 minutos o más después de la hora prevista.

El siguiente paso de preparación de los datos de vuelo tiene dos partes:

  1. convertir las unidades de distancia, sustituyendo la columna mile por una columna km; y
  2. crear una columna booleana que indique si un vuelo se ha retrasado o no.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Importa una función que te permita redondear un número a un número determinado de decimales.
  • Deriva una nueva columna km a partir de la columna mile, redondeando a cero decimales. Una milla es 1,60934 km.
  • Retira la columna mile.
  • Crea una columna label con un valor de 1 que indique que el retraso fue de 15 minutos o más y de 0 en caso contrario. Piensa detenidamente en la condición lógica.

Ejercicio interactivo práctico

Prueba este ejercicio completando el código de muestra.

# Import the required function
from pyspark.sql.functions import ____

# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
                    .____('mile')

# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))

# Check first five records
flights_km.show(5)
Editar y ejecutar código