CommencerCommencer gratuitement

Évaluer le modèle de régression logistique

La précision n'est généralement pas une mesure très fiable car elle peut être biaisée par la classe cible la plus courante.

Il existe deux autres mesures utiles :

  • précision et
  • rappeler.

Consultez les diapositives de cette leçon pour obtenir les expressions pertinentes.

La précision est la proportion de prédictions positives qui sont correctes. Pour tous les vols dont le retard est prévu, quelle est la proportion de vols effectivement retardés ?

Le rappel est la proportion de résultats positifs correctement prédits. Pour tous les vols retardés, quelle proportion est correctement prédite par le modèle ?

La précision et le rappel sont généralement formulés en termes de classe cible positive. Mais il est également possible de calculer des versions pondérées de ces indicateurs qui prennent en compte les deux classes cibles.

Les composants de la matrice de confusion sont les suivants : TN, TP, FN et FP, ainsi que l'objet prediction.

Cet exercice fait partie du cours

Apprentissage automatique avec PySpark

Afficher le cours

Instructions

  • Trouvez la précision et le rappel.
  • Créez un évaluateur multi-classes et évaluez la précision pondérée.
  • Créez un évaluateur binaire et évaluez la SSC à l'aide de la métrique "areaUnderROC".

Exercice interactif pratique

Essayez cet exercice en complétant cet exemple de code.

from pyspark.ml.evaluation import MulticlassClassificationEvaluator, BinaryClassificationEvaluator

# Calculate precision and recall
precision = ____
recall = ____
print('precision = {:.2f}\nrecall    = {:.2f}'.format(precision, recall))

# Find weighted precision
multi_evaluator = ____
weighted_precision = multi_evaluator.____(prediction, {multi_evaluator.metricName: "____"})

# Find AUC
binary_evaluator = ____
auc = binary_evaluator.____(____, {____})
Modifier et exécuter le code