Validação cruzada do modelo simples de duração de voos
Você já criou alguns modelos pra prever a duração dos voos e os avaliou com uma divisão simples entre treinamento e teste. Mas, a validação cruzada é uma maneira muito melhor de avaliar o desempenho do modelo.
Neste exercício, você vai treinar um modelo simples para a duração do voo usando validação cruzada. O tempo de viagem geralmente está bem ligado à distância, então usar só a coluna “ km
” já deve dar um modelo legal.
Os dados foram divididos aleatoriamente em flights_train
e flights_test
.
As seguintes classes já foram importadas: LinearRegression
, RegressionEvaluator
, ParamGridBuilder
e CrossValidator
.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Crie uma grade de parâmetros vazia.
- Crie objetos para construir e avaliar um modelo de regressão linear. O modelo deve prever o campo “duração”.
- Crie um objeto validador cruzado. Dá os valores para os argumentos
estimator
,estimatorParamMaps
eevaluator
. Escolha a validação cruzada quíntupla. - Treine e teste o modelo em várias dobras dos dados de treinamento.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Create an empty parameter grid
params = ____().____()
# Create objects for building and evaluating a regression model
regression = ____(____)
evaluator = ____(____)
# Create a cross validator
cv = ____(estimator=____, estimatorParamMaps=____, evaluator=____, ____)
# Train and test model on multiple folds of the training data
cv = cv.____(____)
# NOTE: Since cross-valdiation builds multiple models, the fit() method can take a little while to complete.