Modelo de duração do voo: Mais recursos!

Vamos adicionar mais recursos ao nosso modelo. Isso não vai necessariamente fazer com que o modelo fique melhor. Adicionar algumas funcionalidades pode melhorar o modelo. Adicionar outras funcionalidades pode piorar as coisas.

Quanto mais recursos, mais complicado e difícil de entender o modelo vai ficar.

Esses são os recursos que você vai incluir no próximo modelo:

km
org (aeroporto de origem, codificação one-hot, 8 níveis)
depart (hora de partida, agrupada em intervalos de 3 horas, codificada em um único valor, 8 níveis)
dow (dia da semana de partida, codificado em um único valor, 7 níveis) e
mon (mês de partida, codificado como one-hot, 12 níveis).

Elas foram reunidas na coluna “ features ”, que é uma representação esparsa de 32 colunas (lembre-se de que a codificação one-hot produz um número de colunas que é um a menos que o número de níveis).

Os dados estão disponíveis em flights, divididos aleatoriamente em flights_train e flights_test.

Esse exercício é baseado em um pequeno subconjunto dos dados dos voos.

Este exercício faz parte do curso

Machine Learning com PySpark

Ver curso

Instruções do exercício

Ajuste um modelo de regressão linear aos dados de treinamento.
Crie previsões para os dados de teste.
Calcule o RMSE nos dados de teste.
Olha os coeficientes do modelo. Algum deles é zero?

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

from pyspark.ml.regression import ____
from pyspark.ml.evaluation import ____

# Fit linear regression model to training data
regression = ____(____).____(____)

# Make predictions on testing data
predictions = regression.____(____)

# Calculate the RMSE on testing data
rmse = ____(____).____(____)
print("The test RMSE is", rmse)

# Look at the model coefficients
coeffs = regression.____
print(coeffs)

Editar e executar o código