Evalúa el modelo de Regresión Logística
La precisión no suele ser una métrica muy fiable, porque puede estar sesgada por la clase objetivo más común.
Hay otras dos métricas útiles:
- precisión y
- retirada.
Consulta las diapositivas de esta lección para obtener las expresiones pertinentes.
La precisión es la proporción de predicciones positivas que son correctas. De todos los vuelos que se prevé que se retrasen, ¿qué proporción se retrasa realmente?
La recuperación es la proporción de resultados positivos que se predicen correctamente. Para todos los vuelos retrasados, ¿qué proporción predice correctamente el modelo?
La precisión y el recuerdo se formulan generalmente en función de la clase objetivo positiva. Pero también es posible calcular versiones ponderadas de estas métricas que tengan en cuenta ambas clases objetivo.
Los componentes de la matriz de confusión están disponibles como TN
, TP
, FN
y FP
, así como el objeto prediction
.
Este ejercicio forma parte del curso
Machine learning con PySpark
Instrucciones de ejercicio
- Encuentra la precisión y la recuperación.
- Crea un evaluador multiclase y evalúa la precisión ponderada.
- Crea un evaluador binario y evalúa el AUC utilizando la métrica
"areaUnderROC"
.
Ejercicio interactivo práctico
Pruebe este ejercicio completando este código de muestra.
from pyspark.ml.evaluation import MulticlassClassificationEvaluator, BinaryClassificationEvaluator
# Calculate precision and recall
precision = ____
recall = ____
print('precision = {:.2f}\nrecall = {:.2f}'.format(precision, recall))
# Find weighted precision
multi_evaluator = ____
weighted_precision = multi_evaluator.____(prediction, {multi_evaluator.metricName: "____"})
# Find AUC
binary_evaluator = ____
auc = binary_evaluator.____(____, {____})