ComeçarComece de graça

Validação cruzada do modelo simples de duração de voos

Você já criou alguns modelos pra prever a duração dos voos e os avaliou com uma divisão simples entre treinamento e teste. Mas, a validação cruzada é uma maneira muito melhor de avaliar o desempenho do modelo.

Neste exercício, você vai treinar um modelo simples para a duração do voo usando validação cruzada. O tempo de viagem geralmente está bem ligado à distância, então usar só a coluna “ km ” já deve dar um modelo legal.

Os dados foram divididos aleatoriamente em flights_train e flights_test.

As seguintes classes já foram importadas: LinearRegression, RegressionEvaluator, ParamGridBuilder e CrossValidator.

Este exercício faz parte do curso

Machine Learning com PySpark

Ver curso

Instruções do exercício

  • Crie uma grade de parâmetros vazia.
  • Crie objetos para construir e avaliar um modelo de regressão linear. O modelo deve prever o campo “duração”.
  • Crie um objeto validador cruzado. Dá os valores para os argumentos estimator, estimatorParamMaps e evaluator. Escolha a validação cruzada quíntupla.
  • Treine e teste o modelo em várias dobras dos dados de treinamento.

Exercício interativo prático

Experimente este exercício completando este código de exemplo.

# Create an empty parameter grid
params = ____().____()

# Create objects for building and evaluating a regression model
regression = ____(____)
evaluator = ____(____)

# Create a cross validator
cv = ____(estimator=____, estimatorParamMaps=____, evaluator=____, ____)

# Train and test model on multiple folds of the training data
cv = cv.____(____)

# NOTE: Since cross-valdiation builds multiple models, the fit() method can take a little while to complete.
Editar e executar o código