Precision - Recall curve analysis

 

궁금한 점 : AUC는 비교할 수 있는 지표 (기준으로 Random Classifier : 0.5) 가 있는데, PR Curve는 ?

 

먼저 위와 같이 베이즈 정리를 이진분류기에 적용해보자 .

 

 

만약 우리의 classifier가 random classifier이라면

실제 class가 positive인 사건과 (Y=1) classifier가 positive로 예측하는 사건 (Y'=1)이 독립이므로

정확히 실제 전체 데이터 수 대비 positive인 데이터의 수 비율만큼 positive 예측한 데이터가 실제로 positive이게 되므로, 

이 때 precision은 P/N으로 constant하게 된다. 

 

이렇게 y-axis (precision)이 일정한 수평선을 baseline이라고 한다. 

 

 

이 baseline을 기준으로 하여 AUPRC (Area Under Precision-Recall Curve)를 비교하면 해당 모델이

실제로 positive (Y=1)인 데이터를 잘 다루는 분류기라고 (성능)을 평가할 수 있을 것이다.