Crie o avaliador
A primeira coisa que você precisa ao fazer a validação cruzada para a seleção de modelos é uma maneira de comparar modelos diferentes. Felizmente, o submódulo pyspark.ml.evaluation tem classes para avaliar diferentes tipos de modelos. Seu modelo é um modelo de classificação binária, portanto você vai usar o BinaryClassificationEvaluator do módulo pyspark.ml.evaluation.
Esse avaliador calcula a área sob a curva de COR (ROC, em inglês). Trata-se de uma métrica que combina os dois tipos de erros que um classificador binário pode cometer (falsos positivos e falsos negativos) em um número simples. Você saberá mais sobre isso no final do capítulo!
Este exercício faz parte do curso
Introdução ao PySpark
Instruções do exercício
- Importe o submódulo
pyspark.ml.evaluationcomoevals. - Crie
evaluatorchamandoevals.BinaryClassificationEvaluator()com o argumentometricName="areaUnderROC".
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
# Import the evaluation submodule
import ____ as evals
# Create a BinaryClassificationEvaluator
evaluator = ____