Teste x Treinamento
Após limpar seus dados e prepará-los para a modelagem, uma das etapas mais importantes é dividir os dados em um conjunto de testes e um conjunto de treinamento. Depois disso, não mexa nos dados de teste até achar que tem um bom modelo! Ao criar modelos e formular hipóteses, você pode testá-los com os dados de treinamento para ter uma ideia do desempenho deles.
Depois de chegar ao seu modelo favorito, você pode ver se ele prevê bem os novos dados no conjunto de testes. Esses dados nunca antes vistos darão a você uma ideia muito mais realista do desempenho do seu modelo no mundo real quando você estiver tentando prever ou classificar novos dados.
No Spark, é importante dividir os dados após todas as transformações. Isso porque operações como StringIndexer
nem sempre produzem o mesmo índice, mesmo quando recebem a mesma lista de strings.
Por que é importante usar um conjunto de testes na avaliação de modelos?
Este exercício faz parte do curso
Introdução ao PySpark
Exercício interativo prático
Transforme a teoria em ação com um de nossos exercícios interativos
