ComeçarComece de graça

Interpretando os coeficientes

Lembre-se de que o aeroporto de origem, org, tem oito valores possíveis (ORD, SFO, JFK, LGA, SMF, SJC, TUS e OGG), que foram codificados como um único valor para sete variáveis fictícias em org_dummy.

Os valores para km e org_dummy foram reunidos em features, que tem oito colunas com representação esparsa. Os índices das colunas em features são os seguintes:

  • 0 — km
  • 1 — ORD
  • 2 — SFO
  • 3 — JFK
  • 4 — LGA
  • 5 — SMF
  • 6 — SJC e
  • 7 — TUS.

Observe que o aeroporto de OGG não aparece nesta lista porque é o nível de referência para a categoria de aeroporto de origem.

Uma instância de LinearRegression está disponível em regression. Neste exercício, você vai usar os atributos intercept e coefficients para entender o modelo.

O atributo “ coefficients ” é uma lista, onde o primeiro elemento mostra como a duração do voo muda com a distância do voo.

Este exercício faz parte do curso

Machine Learning com PySpark

Ver curso

Instruções do exercício

  • Descubra a velocidade média em km por hora. Esse valor vai ser diferente do que você viu antes, porque agora seu modelo está mais sofisticado.
  • Qual é o tempo médio de permanência no aeroporto OGG?
  • Qual é o tempo médio de espera no aeroporto JFK?
  • Qual é o tempo médio de permanência no aeroporto LGA?

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Average speed in km per hour
avg_speed_hour = ____
print(avg_speed_hour)

# Average minutes on ground at OGG
inter = regression.____
print(inter)

# Average minutes on ground at JFK
avg_ground_jfk = ____ + regression.____[____]
print(avg_ground_jfk)

# Average minutes on ground at LGA
avg_ground_lga = ____ + regression.____[____]
print(avg_ground_lga)
Editar e executar o código