오분류표 (confusion matrix)
대부분의 분류 분석 모델 예측 결과는 분류 범주로 나타남에 따라 분류 분석 모형의 평가에는 오분류표가 일반적으로 사용된다. 오분류표는 목표 변수의 실제 범주와 모형에 의해 예측된 분류 범주 사이의 관계를 나타내는 표로 다음과 같이 나타낸다.
오분류표의 각 값이 의미하는 바는 다음과 같다.
- TP(True Positives): 실제값과 예측치 모두 True 인 빈도
- TN(True Negatives): 실제값과 예측치 모두 False 인 빈도
- FP(Fasle Positives): 실제값은 False이나 True 로 예측한 빈도
- FN(Fasle Negatives): 실제값은 True 이나 Fasle 로 예측한 빈도
오 분류 표를 활용하여 모형을 평가하는 지표 중 정분류률(accuracy, recognition rate)은 전체 관측치 중 실제값과 예측치가 일치한 정도를 나타낸다. 정분류율은 범주의 분포가 균형을 이룰 때 효과적인 평가지표이다
이와는 반대로 모형이 제대로 예측하지 못한 관측치를 평가하는 지표로 오분류율(error rate, misclassification rate)이 사용된다. 오분류율은 전체 관측치 중 실제값과 예측치가 다른 정도를 나타내며 1-accuracy 또는 다음과 같은 식으로 평가된다
하지만 대부분의 분류 분석 대상은 소수 집단에 대한 예측 실패의 비용이 다수 집단에 대한 예측 실패 비용보다 크다. 예를 들어 암환자 분류 모형의 경우 암환자는 소수 집단인데 반해 이를 잘못 예측했을 경우의 비용이 다수 집단인 건강한 환자를 잘못 예측한 경우보다 훨씬 크게 된다.
따라서 이러한 범주 불균형 문제(class imbalance problem)를 가지고 있는 데이터에 대한 분류 분석 모형의 평가지표는 중요한 분류 범주만을 다루어야 한다. 이를 위하여 사용되는 평가지표는 민감도(sensitivity) 와 특이도(specificity)가 있다. 민감도는 실제값이 True인 관측치 중 예측치가 적중한 정도를 나타내며, 특이도는 실제값이 False 인 관측치 중 예측치가 적중한 정도를 나타낸다.
이러한 지표와 더불어 오분류표를 사용한 분류 분석 모형의 평가에 대표적으로 사용되는 지표는 정확도(precision)와 재현율(recall)이 있다. 정확도는 True 로 예측한 관측치 중 실제값이 True인 정도를 나타내는 정확성(exactness) 지표이다. 이와 대조적으로 재현율은 실제값이 True 인 관측치 중 예측치가 적중한 정도를 나타내는 민감도와 동일한 지표로 모형의 완전성(completeness)을 평가하는 지표이다.
정확도의 재현율은 모형의 평가에 대표적으로 사용되는 지표이긴 하지만 한 지표의 값이 높아지면 다른 지표의 값이 낮아질 가능성이 높은 관계를 지니고 있다. 예를 들어 암환자의 분류 분석 모형에서 대부분의 사람을 암환자로 예측하였다고 가정하면 높은 정확도를 가지게 되지만 재현율은 현저히 낮은 값이 보이게 된다. 따라서 이러한 효과를 보정하여 하나의 지표로 나타낸 것이 F1지표(F1 score)이다.
F1 score 는 정확도와 재현율의 조화 평균을 나타내며 정확도와 재현율에 같은 가중치를 부여하여 평균하게 된다.
통계 개념(신뢰도 / 지지도 / 향상도)
지지도 (Support)
: 두 항목 X와 Y의 지지도는 전체 거래 건수 중에서 항목집합 X와 Y를 모두 포함하는 거래 건수의 비율을 말한다. 지지도는 좋은 규칙(빈도가 많은, 구성비가 높은)을 찾거나, 불필요한 연산을 줄일 때(pruning, 가지치기)의 기준으로 사용한다.
지지도(support) s(X→Y)
= X와 Y를 모두 포함하는 거래 수 / 전체 거래 수 = n(X∪Y) / N
신뢰도 (Confidence)
: 항목집합 X를 포함하는 거래 중에서 항목집합 Y도 포함하는 거래 비율 (조건부 확률) 을 말한다. 신뢰도가 높을 수록 유용한 규칙일 가능성 높다고 할 수 있다.
= X와 Y를 모두 포함하는 거래 수 / X가 포함된 거래 수 = n(X∪Y) / n(X)
향상도 (Lift)
: 항목집합 X가 주어지지 않았을 때의 항목집합 Y의 확률 대비 항목집합 X가 주어졌을 때 항목집합 Y의 확률 증가 비율을 말한다. 다른말로 표현하자면, 향상도가 1보다 크거나(+관계) 작다면(-관계) 우연적 기회(random chance)보다 우수함을 의미한다.
(X와 Y가 서로 독립이면 Lift = 1)
연관규칙의 신뢰도/지지도 = c(X→Y) / s(Y)
참고링크
https://rfriend.tistory.com/191
'Data Engineering > 머신러닝, AI' 카테고리의 다른 글
[tensorflow error] module 'tensorflow' has no attribute 'random_uniform' (0) | 2020.09.09 |
---|---|
Chapter 2. 사이킷 런으로 시작하는 머신러닝 스터디 1주차 정리 (0) | 2020.03.09 |
가우시안 정규분포 (0) | 2020.03.08 |
파이 토치 실습자료 (0) | 2020.02.21 |
일본 문화보존에 활용되는 Tensorflow AI - 참고자료 (0) | 2020.02.21 |