1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Machine Learning

Connected

연습 문제

Logistic Regression 모델 평가하기

정확도는 가장 빈도가 높은 타깃 클래스에 의해 편향될 수 있어 일반적으로 신뢰하기 어려운 지표입니다.

다음의 두 가지 유용한 지표가 더 있습니다.

  • precision(정밀도)과
  • recall(재현율)입니다.

관련 수식은 이 레슨의 슬라이드를 확인하세요.

정밀도는 양성으로 예측된 것 중 실제로 맞은 비율입니다. 지연될 것으로 예측된 모든 항공편 중 실제로 지연된 비율은 얼마인가요?

재현율은 실제 양성 결과 중에서 올바르게 예측한 비율입니다. 지연된 모든 항공편 중 모델이 올바르게 예측한 비율은 얼마인가요?

정밀도와 재현율은 보통 양성 타깃 클래스를 기준으로 정의합니다. 하지만 두 타깃 클래스를 모두 고려하는 가중치 적용 버전도 계산할 수 있습니다.

혼동 행렬의 구성 요소는 TN, TP, FN, FP로 제공되며, 예측 결과 객체는 prediction입니다.

지침

100 XP
  • 정밀도와 재현율을 구하세요.
  • 다중 클래스 evaluator를 만들어 가중 정밀도를 평가하세요.
  • 이진 evaluator를 만들어 "areaUnderROC" 메트릭을 사용해 AUC를 평가하세요.