Avalie o modelo de regressão logística
A precisão geralmente não é uma métrica muito confiável, porque pode ser influenciada pela classe de alvo mais comum.
Tem mais duas métricas que são bem úteis:
- precisão e
- lembrar.
Dá uma olhada nos slides dessa aula pra ver as expressões que a gente precisa.
Precisão é a proporção de previsões positivas que estão corretas. Pra todos os voos que estão previstos pra atrasar, qual é a proporção que realmente atrasa?
Recall é a proporção de resultados positivos que foram previstos corretamente. Para todos os voos atrasados, qual é a proporção prevista corretamente pelo modelo?
A precisão e a recuperação geralmente são formuladas em termos da classe-alvo positiva. Mas também dá pra calcular versões ponderadas dessas métricas que analisam as duas classes de destino.
Os componentes da matriz de confusão estão disponíveis como TN
, TP
, FN
e FP
, assim como o objeto prediction
.
Este exercício faz parte do curso
Machine Learning com PySpark
Instruções do exercício
- Descubra a precisão e a recuperação.
- Crie um avaliador de várias classes e avalie a precisão ponderada.
- Crie um avaliador binário e avalie a AUC usando a métrica AUC (
"areaUnderROC"
).
Exercício interativo prático
Experimente este exercício completando este código de exemplo.
from pyspark.ml.evaluation import MulticlassClassificationEvaluator, BinaryClassificationEvaluator
# Calculate precision and recall
precision = ____
recall = ____
print('precision = {:.2f}\nrecall = {:.2f}'.format(precision, recall))
# Find weighted precision
multi_evaluator = ____
weighted_precision = multi_evaluator.____(prediction, {multi_evaluator.metricName: "____"})
# Find AUC
binary_evaluator = ____
auc = binary_evaluator.____(____, {____})