Como criar um booleano
Pense que você está modelando uma pergunta do tipo sim ou não: o voo está atrasado? No entanto, seus dados contêm o atraso de chegada em minutos para cada voo. Portanto, você precisa criar uma coluna booleana que indique se o voo chegou atrasado ou não!
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Use o método
.withColumn()
para criar a colunais_late
. Essa coluna é igual amodel_data.arr_delay > 0
. - Converta essa coluna em uma coluna de inteiros para que você possa usá-la no seu modelo e chame-a de
label
(esse é o nome padrão da variável de resposta nas rotinas de aprendizado de máquina do Spark). - Filtre os valores ausentes (isso já foi feito para você).
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create is_late
model_data = model_data.withColumn("is_late", ____)
# Convert to an integer
model_data = model_data.withColumn("label", ____)
# Remove missing values
model_data = model_data.filter("arr_delay is not NULL and dep_delay is not NULL and air_time is not NULL and plane_year is not NULL")