Precision / Recall

Machine Learning

BetterToday 2017. 8. 16. 11:34

728x90

분류기 (Classifier) 의 성능을 평가하는 Metric 에는 Precision/Recall 이 있다.
볼 때 마다 헷갈리는 2가지 성능평가지표를 정리해두자.

1. Confusion Matrix

Confusion Matix 란 Binary Classfier 의 Prediction 결과를 2x2 Matrix 로 나타낸 것이다.

Confusion Matix 의 element 를 정하는 규칙은 다음과 같다.

1) 첫번쨰 Term : Prediction 과 Ground Truth 의 일치여부로 True/False 를 정한다.
2) 두번째 Term : Prediction 결과에 따라 Positive/Negative 를 정한다.

위 규칙에 따르면 총 4가지 경우의 수(첫번째 Term 2개 * 두번쨰 Term 2개)가 나오고 이것으로 아래와 같은 2x2 사이즈의 Confusion Matrix 를 구성할 수 있다.

수식의 의미를 해석해보자. 분모는 (TP+FP) 인데 두번째 Term 이 둘 다 P 이다. 즉, 분모 Term 의 의미는 분류기가 P 라고 예측한 모든 Sample 을 말한다.

결국 Precision 은 분류기가 P로 예측한 sample 중에서 맞게 예측한 것의 비율 을 의미한다.

영어 위키에는 “Precision is the probability that a retrieved one is relevant.” 라고 정의되어있다.

Precision 과 마찬가지로 Recall 수식의 의미도 해석해보자. 분모가 (TP+FN) 이다.

위 2개를 더하면 Ground Truth 의 총 sample 숫자가 된다.

결국 Recall 은 Ground Truth 의 총 positive sample 중에서 positive로 맞게 예측한 것의 비율 을 의미한다.

영어 위키에는 “Recall is the probability of the complete retrival.” 라고 정의되어있다.

728x90