Crie o avaliador
A primeira coisa que você precisa ao fazer a validação cruzada para a seleção de modelos é uma maneira de comparar modelos diferentes. Felizmente, o submódulo pyspark.ml.evaluation
tem classes para avaliar diferentes tipos de modelos. Seu modelo é um modelo de classificação binária, portanto você vai usar o BinaryClassificationEvaluator
do módulo pyspark.ml.evaluation
.
Esse avaliador calcula a área sob a curva de COR (ROC, em inglês). Trata-se de uma métrica que combina os dois tipos de erros que um classificador binário pode cometer (falsos positivos e falsos negativos) em um número simples. Você saberá mais sobre isso no final do capítulo!
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Importe o submódulo
pyspark.ml.evaluation
comoevals
. - Crie
evaluator
chamandoevals.BinaryClassificationEvaluator()
com o argumentometricName="areaUnderROC"
.
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the evaluation submodule
import ____ as evals
# Create a BinaryClassificationEvaluator
evaluator = ____