Manipulación de columnas
La Administración Federal de Aviación (FAA) considera que un vuelo está «retrasado» cuando llega 15 minutos o más después de la hora prevista.
El siguiente paso para preparar los datos de vuelo consta de dos partes:
- convertir las unidades de distancia, sustituyendo la columna «
mile
» por una columna «km
»; y - crea una columna booleana que indique si un vuelo se retrasó o no.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones del ejercicio
- Importa una función que te permitirá redondear un número a un número específico de decimales.
- Deriva una nueva columna «
km
» (Puntos decimales) a partir de la columna «mile
» (Puntos decimales), redondeando a cero decimales. Una milla equivale a 1,60934 km. - Elimina la columna «
mile
». - Crea una columna «
label
» con un valor de 1 que indique que el retraso fue de 15 minutos o más y 0 en caso contrario. Piensa detenidamente en la condición lógica.
Ejercicio interactivo práctico
Prueba este ejercicio y completa el código de muestra.
# Import the required function
from pyspark.sql.functions import ____
# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
.____('mile')
# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))
# Check first five records
flights_km.show(5)