ComeçarComece de graça

Validação cruzada

Nos próximos exercícios, você deve ajustar o modelo de regressão logística usando um procedimento chamado validação cruzada com k subgrupos (k-fold cross-validation). Esse é um método para estimar o desempenho do modelo com dados não vistos (como o seu DataFrame test).

Ele funciona dividindo os dados de treinamento em algumas partições diferentes. O número exato depende de você, mas neste curso você usará o valor padrão do PySpark, que é três. Depois que os dados são divididos, uma das partições é reservada, e o modelo é ajustado às outras. Em seguida, o erro é medido em comparação com a partição reservada. Isso é repetido para cada uma das partições, de modo que cada bloco de dados seja reservado e usado como conjunto de testes exatamente uma vez. Em seguida, é calculada a média do erro em cada uma das partições. Isso é chamado de erro da validação cruzada do modelo e é uma boa estimativa do erro real nos dados reservados.

Você vai utilizar a validação cruzada para escolher os hiperparâmetros, criando uma grade com os possíveis pares de valores dos dois hiperparâmetros, elasticNetParam e regParam, e usando o erro da validação cruzada para comparar todos os modelos e poder escolher o melhor!

O que a validação cruzada permite estimar?

Este exercício faz parte do curso

Introdução ao PySpark

Ver curso

Exercício interativo prático

Transforme a teoria em ação com um de nossos exercícios interativos

Começar o exercício