Comece agoraComece grátis

Teste x Trem

Após limpar seus dados e prepará-los para a modelagem, uma das etapas mais importantes é dividir os dados em um conjunto de testes e um conjunto de treinamento. Depois disso, não mexa nos dados de teste até achar que tem um bom modelo! Ao criar modelos e formular hipóteses, você pode testá-los com os dados de treinamento para ter uma ideia do desempenho deles.

Depois de chegar ao seu modelo favorito, você pode ver se ele prevê bem os novos dados no conjunto de testes. Esses dados nunca antes vistos darão a você uma ideia muito mais realista do desempenho do seu modelo no mundo real quando você estiver tentando prever ou classificar novos dados.

No Spark, é importante dividir os dados após todas as transformações. Isso porque operações como StringIndexer nem sempre produzem o mesmo índice, mesmo quando recebem a mesma lista de strings.

Por que é importante usar um conjunto de testes na avaliação de modelos?

Este exercicio faz parte do curso

Fundamentos do PySpark

Ver curso

exercicio interativo prático

Transforme teoria em prática com um dos nossos exercicio interativos

Iniciar exercicio