Manipulação de coluna
A Administração Federal de Aviação (FAA) considera que um voo está "atrasado" quando chega 15 minutos ou mais após o horário programado.
A próxima etapa de preparação dos dados de voo tem duas partes:
- Converta as unidades de distância, substituindo a coluna
milepor uma colunakm; e - crie uma coluna booleana que indique se um voo está atrasado ou não.
Este exercício faz parte do curso
Machine learning com PySpark
Instruções do exercício
- Importe uma função que permitirá que você arredonde um número para um número específico de casas decimais.
- Derivar uma nova coluna
kmda colunamile, arredondando para zero casas decimais. Uma milha equivale a 1,60934 km. - Remova a coluna
mile. - Crie uma coluna
labelcom um valor de 1 indicando que o atraso foi de 15 minutos ou mais e 0 caso contrário. Pense cuidadosamente sobre a condição lógica.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the required function
from pyspark.sql.functions import ____
# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
.____('mile')
# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))
# Check first five records
flights_km.show(5)