Modelo de duração do voo: Mais recursos!
Vamos adicionar mais recursos ao nosso modelo. Isso não vai necessariamente fazer com que o modelo fique melhor. Adicionar algumas funcionalidades pode melhorar o modelo. Adicionar outras funcionalidades pode piorar as coisas.
Quanto mais recursos, mais complicado e difícil de entender o modelo vai ficar.
Esses são os recursos que você vai incluir no próximo modelo:
km
org
(aeroporto de origem, codificação one-hot, 8 níveis)depart
(hora de partida, agrupada em intervalos de 3 horas, codificada em um único valor, 8 níveis)dow
(dia da semana de partida, codificado em um único valor, 7 níveis) emon
(mês de partida, codificado como one-hot, 12 níveis).
Elas foram reunidas na coluna “ features
”, que é uma representação esparsa de 32 colunas (lembre-se de que a codificação one-hot produz um número de colunas que é um a menos que o número de níveis).
Os dados estão disponíveis em flights
, divididos aleatoriamente em flights_train
e flights_test
.
Esse exercício é baseado em um pequeno subconjunto dos dados dos voos.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Ajuste um modelo de regressão linear aos dados de treinamento.
- Crie previsões para os dados de teste.
- Calcule o RMSE nos dados de teste.
- Olha os coeficientes do modelo. Algum deles é zero?
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from pyspark.ml.regression import ____
from pyspark.ml.evaluation import ____
# Fit linear regression model to training data
regression = ____(____).____(____)
# Make predictions on testing data
predictions = regression.____(____)
# Calculate the RMSE on testing data
rmse = ____(____).____(____)
print("The test RMSE is", rmse)
# Look at the model coefficients
coeffs = regression.____
print(coeffs)