ComenzarEmpieza gratis

Manipulación de columnas

La Administración Federal de Aviación (FAA) considera que un vuelo está «retrasado» cuando llega 15 minutos o más después de la hora prevista.

El siguiente paso para preparar los datos de vuelo consta de dos partes:

  1. convertir las unidades de distancia, sustituyendo la columna « mile » por una columna « km»; y
  2. crea una columna booleana que indique si un vuelo se retrasó o no.

Este ejercicio forma parte del curso

Machine learning con PySpark

Ver curso

Instrucciones del ejercicio

  • Importa una función que te permitirá redondear un número a un número específico de decimales.
  • Deriva una nueva columna « km » (Puntos decimales) a partir de la columna « mile » (Puntos decimales), redondeando a cero decimales. Una milla equivale a 1,60934 km.
  • Elimina la columna « mile ».
  • Crea una columna « label » con un valor de 1 que indique que el retraso fue de 15 minutos o más y 0 en caso contrario. Piensa detenidamente en la condición lógica.

Ejercicio interactivo práctico

Prueba este ejercicio y completa el código de muestra.

# Import the required function
from pyspark.sql.functions import ____

# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
                    .____('mile')

# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))

# Check first five records
flights_km.show(5)
Editar y ejecutar código