ComeçarComece de graça

Manipulação de colunas

A Administração Federal de Aviação (FAA) considera um voo “atrasado” quando chega 15 minutos ou mais depois do horário previsto.

A próxima etapa da preparação dos dados de voo tem duas partes:

  1. converta as unidades de distância, trocando a coluna “ mile ” por uma coluna “ km”; e
  2. Crie uma coluna Booleana que mostre se um voo atrasou ou não.

Este exercício faz parte do curso

Machine Learning com PySpark

Ver curso

Instruções do exercício

  • Importa uma função que te permite arredondar um número para um número específico de casas decimais.
  • Crie uma nova coluna “ km ” a partir da coluna “ mile ”, arredondando para zero casas decimais. Uma milha é igual a 1,60934 km.
  • Tira a coluna “ mile ”.
  • Crie uma coluna “ label ” com o valor 1 se o atraso foi de 15 minutos ou mais e 0 caso contrário. Pense bem na condição lógica.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Import the required function
from pyspark.sql.functions import ____

# Convert 'mile' to 'km' and drop 'mile' column (1 mile is equivalent to 1.60934 km)
flights_km = flights.____('km', ____(____ * ____, 0)) \
                    .____('mile')

# Create 'label' column indicating whether flight delayed (1) or not (0)
flights_km = flights_km.____('label', (____).cast('integer'))

# Check first five records
flights_km.show(5)
Editar e executar o código