ComeçarComece de graça

Como criar um booleano

Pense que você está modelando uma pergunta do tipo sim ou não: o voo está atrasado? No entanto, seus dados contêm o atraso de chegada em minutos para cada voo. Portanto, você precisa criar uma coluna booleana que indique se o voo chegou atrasado ou não!

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Instruções do exercício

  • Use o método .withColumn() para criar a coluna is_late. Essa coluna é igual a model_data.arr_delay > 0.
  • Converta essa coluna em uma coluna de inteiros para que você possa usá-la no seu modelo e chame-a de label (esse é o nome padrão da variável de resposta nas rotinas de aprendizado de máquina do Spark).
  • Filtre os valores ausentes (isso já foi feito para você).

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create is_late
model_data = model_data.withColumn("is_late", ____)

# Convert to an integer
model_data = model_data.withColumn("label", ____)

# Remove missing values
model_data = model_data.filter("arr_delay is not NULL and dep_delay is not NULL and air_time is not NULL and plane_year is not NULL")
Editar e executar o código