Manipulação de coluna
A Federal Aviation Administration (FAA) considera que um voo está "atrasado" quando ele chega 15 minutos ou mais depois do horário programado.
A próxima etapa de preparação dos dados de voo tem duas partes:
- Converta as unidades de distância, substituindo a coluna
mile
por uma colunakm
; e - crie uma coluna booleana que indique se um voo está atrasado ou não.
Este exercício faz parte do curso
Aprendizado de máquina com PySpark
Instruções de exercício
- Importe uma função que permita a você arredondar um número para um número específico de casas decimais.
- Derivar uma nova coluna
km
da colunamile
, arredondando para zero casas decimais. Uma milha equivale a 1,60934 km. - Remova a coluna
mile
. - Crie uma coluna
label
com um valor de 1 indicando que o atraso foi de 15 minutos ou mais e 0 caso contrário. Pense cuidadosamente sobre a condição lógica.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
# Import the required function
from pyspark.sql.functions import ____
# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
.____('mile')
# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))
# Check first five records
flights_km.show(5)