ComeçarComece gratuitamente

Avalie o modelo de regressão logística

A precisão geralmente não é uma métrica muito confiável porque pode ser influenciada pela classe de destino mais comum.

Há duas outras métricas úteis:

  • precisão e
  • recall.

Consulte os slides desta lição para obter as expressões relevantes.

A precisão é a proporção de previsões positivas que estão corretas. Para todos os voos com previsão de atraso, qual é a proporção que realmente está atrasada?

Recall é a proporção de resultados positivos que são previstos corretamente. Para todos os voos atrasados, qual proporção é corretamente prevista pelo modelo?

A precisão e a recuperação são geralmente formuladas em termos da classe-alvo positiva. Mas também é possível calcular versões ponderadas dessas métricas que analisam as duas classes-alvo.

Os componentes da matriz de confusão estão disponíveis como TN, TP, FN e FP, bem como o objeto prediction.

Este exercício faz parte do curso

Aprendizado de máquina com PySpark

Ver Curso

Instruções de exercício

  • Encontre a precisão e a recuperação.
  • Crie um avaliador de várias classes e avalie a precisão ponderada.
  • Crie um avaliador binário e avalie AUC usando a métrica "areaUnderROC".

Exercício interativo prático

Experimente este exercício preenchendo este código de exemplo.

from pyspark.ml.evaluation import MulticlassClassificationEvaluator, BinaryClassificationEvaluator

# Calculate precision and recall
precision = ____
recall = ____
print('precision = {:.2f}\nrecall    = {:.2f}'.format(precision, recall))

# Find weighted precision
multi_evaluator = ____
weighted_precision = multi_evaluator.____(prediction, {multi_evaluator.metricName: "____"})

# Find AUC
binary_evaluator = ____
auc = binary_evaluator.____(____, {____})
Editar e executar código