ComeçarComece gratuitamente

Modelo de duração de voo: Apenas distância

Neste exercício, você criará um modelo de regressão para prever a duração do voo (a coluna duration ).

No momento, você manterá o modelo simples, incluindo apenas a distância do voo (a coluna km ) como um preditor.

Os dados estão em flights. Os primeiros registros são exibidos no terminal. Esses dados também foram divididos em conjuntos de treinamento e teste e estão disponíveis em flights_train e flights_test.

Este exercício faz parte do curso

Machine learning com PySpark

Ver Curso

Instruções de exercício

  • Crie um objeto de regressão linear. Especifique o nome da coluna de rótulos. Ajuste-o aos dados de treinamento.
  • Faça previsões sobre os dados de teste.
  • Crie um objeto avaliador de regressão e use-o para avaliar o RMSE nos dados de teste.

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator

# Create a regression object and train on training data
regression = ____(____).____(____)

# Create predictions for the testing data and take a look at the predictions
predictions = ____.____(____)
predictions.select('duration', 'prediction').show(5, False)

# Calculate the RMSE
____(____).____(predictions)
Editar e executar código