Manipulação de colunas
A Administração Federal de Aviação (FAA) considera um voo “atrasado” quando chega 15 minutos ou mais depois do horário previsto.
A próxima etapa da preparação dos dados de voo tem duas partes:
- converta as unidades de distância, trocando a coluna “
mile
” por uma coluna “km
”; e - Crie uma coluna Booleana que mostre se um voo atrasou ou não.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Importa uma função que te permite arredondar um número para um número específico de casas decimais.
- Crie uma nova coluna “
km
” a partir da coluna “mile
”, arredondando para zero casas decimais. Uma milha é igual a 1,60934 km. - Tira a coluna “
mile
”. - Crie uma coluna “
label
” com o valor 1 se o atraso foi de 15 minutos ou mais e 0 caso contrário. Pense bem na condição lógica.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the required function
from pyspark.sql.functions import ____
# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
.____('mile')
# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))
# Check first five records
flights_km.show(5)