Interpretando os coeficientes
Lembre-se de que o aeroporto de origem, org, tem oito valores possíveis (ORD, SFO, JFK, LGA, SMF, SJC, TUS e OGG), que foram codificados como um único valor para sete variáveis fictícias em org_dummy.
Os valores para km e org_dummy foram reunidos em features, que tem oito colunas com representação esparsa. Os índices das colunas em features são os seguintes:
- 0 —
km - 1 —
ORD - 2 —
SFO - 3 —
JFK - 4 —
LGA - 5 —
SMF - 6 —
SJCe - 7 —
TUS.
Observe que o aeroporto de OGG não aparece nesta lista porque é o nível de referência para a categoria de aeroporto de origem.
Uma instância de LinearRegression está disponível em regression. Neste exercício, você vai usar os atributos intercept e coefficients para entender o modelo.
O atributo “ coefficients ” é uma lista, onde o primeiro elemento mostra como a duração do voo muda com a distância do voo.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Descubra a velocidade média em km por hora. Esse valor vai ser diferente do que você viu antes, porque agora seu modelo está mais sofisticado.
- Qual é o tempo médio de permanência no aeroporto OGG?
- Qual é o tempo médio de espera no aeroporto JFK?
- Qual é o tempo médio de permanência no aeroporto LGA?
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Average speed in km per hour
avg_speed_hour = ____
print(avg_speed_hour)
# Average minutes on ground at OGG
inter = regression.____
print(inter)
# Average minutes on ground at JFK
avg_ground_jfk = ____ + regression.____[____]
print(avg_ground_jfk)
# Average minutes on ground at LGA
avg_ground_lga = ____ + regression.____[____]
print(avg_ground_lga)