1. 학습
  2. /
  3. 강의
  4. /
  5. PySpark로 하는 Machine Learning

Connected

연습 문제

Decision Tree 평가하기

테스트 데이터에서의 성능을 평가하면 모델의 품질을 확인할 수 있습니다. 모델을 이 데이터로 학습하지 않았기 때문에, 이는 모델에 대한 객관적인 평가가 됩니다.

혼동 행렬(confusion matrix)은 예측값과 실제값의 대응을 유용하게 요약해 줍니다. 네 가지 셀로 구성되며 각각 다음의 개수를 나타냅니다.

  • True Negatives (TN) — 모델이 부정으로 예측했고 실제도 부정인 경우
  • True Positives (TP) — 모델이 긍정으로 예측했고 실제도 긍정인 경우
  • False Negatives (FN) — 모델은 부정으로 예측했지만 실제는 긍정인 경우
  • False Positives (FP) — 모델은 긍정으로 예측했지만 실제는 부정인 경우

이 개수들(TN, TP, FN, FP)의 합은 테스트 데이터의 레코드 수와 같아야 합니다. 테스트 데이터는 항공편 데이터의 일부이므로, flights_test.count()와 비교해 볼 수 있습니다.

참고: 이 예측은 테스트 데이터에 대해 수행되므로, 학습 데이터에 대해 예측했을 때보다 개수가 더 적습니다.

지침

100 XP
  • label과 prediction의 조합을 세어 혼동 행렬을 만들고 결과를 표시하세요.
  • True Negatives, True Positives, False Negatives, False Positives의 개수를 세세요.
  • 정확도를 계산하세요.