ComeçarComece de graça

Modelo de duração do voo: Mais recursos!

Vamos adicionar mais recursos ao nosso modelo. Isso não vai necessariamente fazer com que o modelo fique melhor. Adicionar algumas funcionalidades pode melhorar o modelo. Adicionar outras funcionalidades pode piorar as coisas.

Quanto mais recursos, mais complicado e difícil de entender o modelo vai ficar.

Esses são os recursos que você vai incluir no próximo modelo:

  • km
  • org (aeroporto de origem, codificação one-hot, 8 níveis)
  • depart (hora de partida, agrupada em intervalos de 3 horas, codificada em um único valor, 8 níveis)
  • dow (dia da semana de partida, codificado em um único valor, 7 níveis) e
  • mon (mês de partida, codificado como one-hot, 12 níveis).

Elas foram reunidas na coluna “ features ”, que é uma representação esparsa de 32 colunas (lembre-se de que a codificação one-hot produz um número de colunas que é um a menos que o número de níveis).

Os dados estão disponíveis em flights, divididos aleatoriamente em flights_train e flights_test.

Esse exercício é baseado em um pequeno subconjunto dos dados dos voos.

Este exercício faz parte do curso

Machine Learning com PySpark

Ver curso

Instruções do exercício

  • Ajuste um modelo de regressão linear aos dados de treinamento.
  • Crie previsões para os dados de teste.
  • Calcule o RMSE nos dados de teste.
  • Olha os coeficientes do modelo. Algum deles é zero?

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

from pyspark.ml.regression import ____
from pyspark.ml.evaluation import ____

# Fit linear regression model to training data
regression = ____(____).____(____)

# Make predictions on testing data
predictions = regression.____(____)

# Calculate the RMSE on testing data
rmse = ____(____).____(____)
print("The test RMSE is", rmse)

# Look at the model coefficients
coeffs = regression.____
print(coeffs)
Editar e executar o código