Precision - Recall curve analysis
궁금한 점 : AUC는 비교할 수 있는 지표 (기준으로 Random Classifier : 0.5) 가 있는데, PR Curve는 ?

먼저 위와 같이 베이즈 정리를 이진분류기에 적용해보자 .

만약 우리의 classifier가 random classifier이라면
실제 class가 positive인 사건과 (Y=1) classifier가 positive로 예측하는 사건 (Y'=1)이 독립이므로
정확히 실제 전체 데이터 수 대비 positive인 데이터의 수 비율만큼 positive 예측한 데이터가 실제로 positive이게 되므로,
이 때 precision은 P/N으로 constant하게 된다.
이렇게 y-axis (precision)이 일정한 수평선을 baseline이라고 한다.
이 baseline을 기준으로 하여 AUPRC (Area Under Precision-Recall Curve)를 비교하면 해당 모델이
실제로 positive (Y=1)인 데이터를 잘 다루는 분류기라고 (성능)을 평가할 수 있을 것이다.

'Study > 머신러닝' 카테고리의 다른 글
차원 축소 (0) | 2023.10.29 |
---|---|
앙상블 학습 - Bagging (0) | 2023.09.25 |
Decision Tree : 가지치기 (pruning)에 대하여 (0) | 2023.09.15 |
Decision Tree : scikit learn의 feature_importances_는 어떻게 계산된 것일까? + Permutation Importance (0) | 2023.09.08 |
Decision Tree : 데이터 분할에서 '균일도'(impurity)에 대하여 (0) | 2023.09.07 |