Manipulación de columnas
La Administración Federal de Aviación (FAA) considera que un vuelo está "retrasado" cuando llega 15 minutos o más después de la hora prevista.
El siguiente paso de preparación de los datos de vuelo tiene dos partes:
- convertir las unidades de distancia, sustituyendo la columna
mile
por una columnakm
; y - crear una columna booleana que indique si un vuelo se ha retrasado o no.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones del ejercicio
- Importa una función que te permita redondear un número a un número determinado de decimales.
- Deriva una nueva columna
km
a partir de la columnamile
, redondeando a cero decimales. Una milla es 1,60934 km. - Retira la columna
mile
. - Crea una columna
label
con un valor de 1 que indique que el retraso fue de 15 minutos o más y de 0 en caso contrario. Piensa detenidamente en la condición lógica.
Ejercicio interactivo práctico
Prueba este ejercicio completando el código de muestra.
# Import the required function
from pyspark.sql.functions import ____
# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
.____('mile')
# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))
# Check first five records
flights_km.show(5)