Interpretação de coeficientes
Lembre-se de que o aeroporto de origem, org, tem oito valores possíveis (ORD, SFO, JFK, LGA, SMF, SJC, TUS e OGG), que foram codificados em um único ponto para sete variáveis fictícias em org_dummy.
Os valores de km e org_dummy foram reunidos em features, que tem oito colunas com representação esparsa. Os índices de coluna em features são os seguintes:
- 0 —
km - 1 —
ORD - 2 —
SFO - 3 —
JFK - 4 —
LGA - 5 —
SMF - 6 -
SJCe - 7 —
TUS.
Observe que OGG não aparece nessa lista porque é o nível de referência para a categoria de aeroporto de origem.
Uma instância de LinearRegression está disponível em regression. Neste exercício, você usará os atributos intercept e coefficients para interpretar o modelo.
O atributo coefficients é uma lista, em que o primeiro elemento indica como a duração do voo muda com a distância do voo.
Este exercício faz parte do curso
Machine learning com PySpark
Instruções do exercício
- Encontre a velocidade média em quilômetros por hora. Esse valor será diferente do valor que você obteve anteriormente porque seu modelo agora é mais sofisticado.
- Qual é o tempo médio de permanência no solo na OGG?
- Qual é o tempo médio de permanência em terra no JFK?
- Qual é o tempo médio de permanência em solo no LGA?
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Average speed in km per hour
avg_speed_hour = ____
print(avg_speed_hour)
# Average minutes on ground at OGG
inter = regression.____
print(inter)
# Average minutes on ground at JFK
avg_ground_jfk = ____ + regression.____[____]
print(avg_ground_jfk)
# Average minutes on ground at LGA
avg_ground_lga = ____ + regression.____[____]
print(avg_ground_lga)