ComeçarComece de graça

Modelo de duração do voo: Apenas distância

Neste exercício, você vai criar um modelo de regressão para prever a duração dos voos (a coluna “ duration ”).

Por enquanto, vamos manter o modelo simples, incluindo só a distância do voo (coluna “ km ”) como um indicador.

Os dados estão em flights. Os primeiros registros aparecem no terminal. Esses dados também foram divididos em conjuntos de treinamento e teste e estão disponíveis em flights_train e flights_test.

Este exercício faz parte do curso

Machine Learning com PySpark

Ver curso

Instruções do exercício

  • Crie um objeto de regressão linear. Dá um nome pra coluna de rótulo. Ajuste-o aos dados de treinamento.
  • Faça previsões com base nos dados dos testes.
  • Crie um objeto avaliador de regressão e use-o para avaliar o RMSE nos dados de teste.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

from pyspark.ml.regression import LinearRegression
from pyspark.ml.evaluation import RegressionEvaluator

# Create a regression object and train on training data
regression = ____(____).____(____)

# Create predictions for the testing data and take a look at the predictions
predictions = ____.____(____)
predictions.select('duration', 'prediction').show(5, False)

# Calculate the RMSE
____(____).____(predictions)
Editar e executar o código