Avalie o modelo de regressão logística
A precisão geralmente não é uma métrica muito confiável porque pode ser influenciada pela classe de destino mais comum.
Há duas outras métricas úteis:
- precisão e
- recall.
Consulte os slides desta lição para obter as expressões relevantes.
A precisão é a proporção de previsões positivas que estão corretas. Para todos os voos com previsão de atraso, qual é a proporção que realmente está atrasada?
Recall é a proporção de resultados positivos que são previstos corretamente. Para todos os voos atrasados, qual proporção é corretamente prevista pelo modelo?
A precisão e a recuperação são geralmente formuladas em termos da classe-alvo positiva. Mas também é possível calcular versões ponderadas dessas métricas que analisam as duas classes-alvo.
Os componentes da matriz de confusão estão disponíveis como TN
, TP
, FN
e FP
, bem como o objeto prediction
.
Este exercício faz parte do curso
Aprendizado de máquina com PySpark
Instruções de exercício
- Encontre a precisão e a recuperação.
- Crie um avaliador de várias classes e avalie a precisão ponderada.
- Crie um avaliador binário e avalie AUC usando a métrica
"areaUnderROC"
.
Exercício interativo prático
Experimente este exercício preenchendo este código de exemplo.
from pyspark.ml.evaluation import MulticlassClassificationEvaluator, BinaryClassificationEvaluator
# Calculate precision and recall
precision = ____
recall = ____
print('precision = {:.2f}\nrecall = {:.2f}'.format(precision, recall))
# Find weighted precision
multi_evaluator = ____
weighted_precision = multi_evaluator.____(prediction, {multi_evaluator.metricName: "____"})
# Find AUC
binary_evaluator = ____
auc = binary_evaluator.____(____, {____})