ComeçarComece gratuitamente

Manipulação de coluna

A Federal Aviation Administration (FAA) considera que um voo está "atrasado" quando ele chega 15 minutos ou mais depois do horário programado.

A próxima etapa de preparação dos dados de voo tem duas partes:

  1. Converta as unidades de distância, substituindo a coluna mile por uma coluna km; e
  2. crie uma coluna booleana que indique se um voo está atrasado ou não.

Este exercício faz parte do curso

Aprendizado de máquina com PySpark

Ver Curso

Instruções de exercício

  • Importe uma função que permita a você arredondar um número para um número específico de casas decimais.
  • Derivar uma nova coluna km da coluna mile, arredondando para zero casas decimais. Uma milha equivale a 1,60934 km.
  • Remova a coluna mile.
  • Crie uma coluna label com um valor de 1 indicando que o atraso foi de 15 minutos ou mais e 0 caso contrário. Pense cuidadosamente sobre a condição lógica.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

# Import the required function
from pyspark.sql.functions import ____

# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
                    .____('mile')

# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))

# Check first five records
flights_km.show(5)
Editar e executar código