Interpretando os coeficientes
Lembre-se de que o aeroporto de origem, org
, tem oito valores possíveis (ORD, SFO, JFK, LGA, SMF, SJC, TUS e OGG), que foram codificados como um único valor para sete variáveis fictícias em org_dummy
.
Os valores para km
e org_dummy
foram reunidos em features
, que tem oito colunas com representação esparsa. Os índices das colunas em features
são os seguintes:
- 0 —
km
- 1 —
ORD
- 2 —
SFO
- 3 —
JFK
- 4 —
LGA
- 5 —
SMF
- 6 —
SJC
e - 7 —
TUS
.
Observe que o aeroporto de OGG
não aparece nesta lista porque é o nível de referência para a categoria de aeroporto de origem.
Uma instância de LinearRegression
está disponível em regression
. Neste exercício, você vai usar os atributos intercept
e coefficients
para entender o modelo.
O atributo “ coefficients
” é uma lista, onde o primeiro elemento mostra como a duração do voo muda com a distância do voo.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Descubra a velocidade média em km por hora. Esse valor vai ser diferente do que você viu antes, porque agora seu modelo está mais sofisticado.
- Qual é o tempo médio de permanência no aeroporto OGG?
- Qual é o tempo médio de espera no aeroporto JFK?
- Qual é o tempo médio de permanência no aeroporto LGA?
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Average speed in km per hour
avg_speed_hour = ____
print(avg_speed_hour)
# Average minutes on ground at OGG
inter = regression.____
print(inter)
# Average minutes on ground at JFK
avg_ground_jfk = ____ + regression.____[____]
print(avg_ground_jfk)
# Average minutes on ground at LGA
avg_ground_lga = ____ + regression.____[____]
print(avg_ground_lga)