평가 지표 도구상자 — accuracy·precision·recall·AUC·MAPE 어디 쓸지

“이 모델 정확도 95%예요.” 좋은 말처럼 들리지만 클래스 불균형이 큰 자리(이탈률 5%)에선 의미 없는 숫자입니다. 같은 모델·같은 데이터에 어떤 평가 지표를 보느냐가 결론을 통째로 바꿉니다. 회귀·분류의 표준 지표 8가지·자리별 선택 가이드를 운영 도구상자 형태로 정리합니다.

1. 평가 지표가 의사결정을 바꾸는 자리

같은 이탈 예측 모델의 평가:

지표	값	의미
Accuracy	95%	“잘 맞춤”
Precision	90%	“양성 예측 90% 진짜”
Recall	12%	“진짜 이탈자 12%만 잡음”
F1	21%	“균형 평가 나쁨”
AUC-ROC	0.85	”분류 능력 좋음”
AUC-PR	0.18	”양성 예측 어려움”

같은 모델인데 어떤 지표를 보느냐에 따라 “잘 맞는 모델”부터 “거의 못 잡는 모델”까지 결론이 달라집니다. 평가 지표 선택은 의사결정의 핵심.

회귀·분류 평가 지표 8가지의 비교 다이어그램 — 같은 데이터·같은 모델에 다른 지표를 보면 다른 결론. 운영 자리의 비대칭 손실에 맞는 지표 선택이 핵심.

2. 분류 지표 — 5가지

2-1. Accuracy

Accuracy = \frac{T P + T N}{T P + T N + F P + F N}

전체 중 맞춘 비율. 가장 직관적이지만 클래스 불균형에 약함.

자리:

균형 데이터 (이진 50:50, 다중 균등)
의사결정자에게 단순 보고

피해야 할 자리:

클래스 불균형 큰 자리 (이탈률 5%, 전환율 2%)

2-2. Precision

Precision = \frac{T P}{T P + F P}

양성 예측 중 진짜 양성. False positive 비싼 자리에 적합.

자리:

광고 타겟팅 — 잘못된 타겟 = 비용 낭비
추천 — 잘못된 추천 = 사용자 신뢰 손실

2-3. Recall (Sensitivity)

Recall = \frac{T P}{T P + F N}

진짜 양성 중 잡아낸 비율. False negative 비싼 자리에 적합.

자리:

이탈 예측 — 놓치면 윈백 못 함
사기 탐지 — 놓치면 손실
의료 진단 — 놓치면 환자 위험

2-4. F1 Score

F_{1} = \frac{2 \cdot Precision \cdot Recall}{Precision + Recall}

Precision·Recall의 조화 평균. 둘 사이 균형.

자리:

둘 다 비싼 자리
클래스 불균형의 종합 평가

2-5. AUC-ROC와 AUC-PR

ROC 곡선 — 임계값을 바꿔가며 (Recall, FPR) 그린 곡선. AUC가 그 아래 면적. 0.5는 무작위, 1.0이 완벽.

PR 곡선 — (Recall, Precision) 그린 곡선. 클래스 불균형에 더 민감.

자리	적합한 AUC
균형 데이터	AUC-ROC
클래스 불균형 (희귀 양성)	AUC-PR
모델 비교	둘 다

마케팅 자리는 거의 다 클래스 불균형 — AUC-PR이 더 적합한 경우 많음.

3. 회귀 지표 — 4가지

3-1. MAE (Mean Absolute Error)

MAE = \frac{1}{n} \sum ∣ y_{i} - \overset{y}{^}_{i} ∣

평균 절대 오차. 직관적, outlier에 강함.

3-2. RMSE (Root Mean Squared Error)

RMSE = \frac{1}{n} \sum (y_{i} - \overset{y}{^}_{i})^{2}

큰 오차에 페널티. 정규 분포 가정에 적합. Outlier에 민감.

3-3. MAPE (Mean Absolute Percentage Error)

MAPE = \frac{1}{n} \sum \frac{y _{i} - y ^ _{i}}{y _{i}} \times 100%

상대 오차. 단위 다른 자리 비교 가능. 0 근처 값에 위험.

3-4. R² (결정 계수)

R^{2} = 1 - \frac{\sum ( y _{i} - y ^ _{i} ) ^{2}}{\sum ( y _{i} - y ˉ ) ^{2}}

설명된 분산 비율. 1에 가까울수록 좋음. 모델 비교에 적합.

자리	적합한 지표
마케터 보고	MAE·MAPE (직관적)
모델 비교	RMSE·R²
Outlier 큰 자리	MAE (RMSE보다 robust)
단위 다른 자리 비교	MAPE

4. 비대칭 손실에 맞춘 지표 선택

운영 의사결정의 첫 질문: “어떤 종류의 오차가 더 비싼가.”

4-1. False Negative가 비쌈

이탈 예측·사기 탐지 — 놓치면 손실. Recall을 우선. 동시에 너무 낮은 Precision은 운영 부담 → F1 또는 PR-AUC.

4-2. False Positive가 비쌈

광고 타겟팅·푸시 알림 — 잘못 타겟이 비용. Precision을 우선.

4-3. 균형이 중요

추천 시스템 — 둘 다 비쌈. F1·AUC-PR.

4-4. 비용 비대칭이 명확하게 다름

이탈 놓침 = 100원 / 잘못 타겟 = 5원의 명확한 비대칭. 비용 가중 metric:

Cost = w_{F N} \cdot F N + w_{F P} \cdot F P

운영팀과 비용 비대칭 합의 → 가중 손실 함수 + 가중 평가 지표.

from sklearn.metrics import classification_report, roc_auc_score, average_precision_score

# 표준 분류 평가
print(classification_report(y_true, y_pred))
print('AUC-ROC:', roc_auc_score(y_true, y_proba))
print('AUC-PR:', average_precision_score(y_true, y_proba))

이게 본문에 박는 유일한 코드입니다. sklearn으로 평가 한 묶음. classification_report에 precision·recall·F1·support가 한 표.

5. Threshold 결정 — 분류 임계값의 운영 의미

분류 모델은 보통 확률(0~1)을 출력. “양성”으로 분류하는 임계값(보통 0.5)을 자리에 맞게 조정 가능.

임계값	효과
0.3	Recall 높음, Precision 낮음
0.5	디폴트, 균형
0.7	Precision 높음, Recall 낮음

운영 결정의 트리거 — 이탈 예측 모델의 임계값을 0.3으로 두면 더 많이 잡지만 잘못 타겟 비율 증가. 0.7로 두면 정확하게 잡지만 놓침 증가.

ROC·PR 곡선에서 비대칭 손실에 맞는 임계값 선택. 이 결정은 모델 학습 후의 운영 단계.

6. 마케팅 운영 자리별 지표 가이드

6-1. LTV 예측 (회귀)

1차 — MAPE (상대 오차, 의사결정자 직관)
2차 — MAE (절대 단가 한도 산정)
모델 비교 — R² 또는 RMSE

6-2. 이탈 예측 (분류, 클래스 불균형)

1차 — Recall (놓침 우선)
2차 — AUC-PR (전체 평가)
임계값 — 비용 비대칭에 맞춰 0.3~0.5 사이

6-3. CTR 예측 (회귀, 0~1 확률)

1차 — Log Loss (cross-entropy)
2차 — AUC-ROC (모델 비교)

6-4. 광고 타겟팅 (분류)

1차 — Precision (False positive 비쌈)
2차 — F1 (균형)

6-5. 추천 시스템 (분류·랭킹)

Precision@K — 상위 K개 추천 중 진짜 양성
Recall@K — 진짜 양성 중 상위 K에 들어간 비율
NDCG — 랭킹 품질

7. 평가 지표가 깨질 때 — 흔한 함정 3가지

7-1. 한 지표만 보고 결론

Accuracy 한 숫자로 결론 짓는 자리. 정확도 95%인데 진짜 양성 12%만 잡으면 모델이 실용 가치 없음. 항상 precision·recall·AUC를 같이.

7-2. 학습·검증·운영 지표가 매우 다름

학습 95% / 검증 80% / 운영 60%면 overfitting 또는 데이터 drift. 세 자리 지표를 매주 모니터링.

7-3. 비대칭 손실 무시

운영팀이 “False negative가 5배 비쌈”인데 평가는 F1으로. 모델은 균형으로 학습됐지만 운영 가치는 떨어짐. 비대칭 손실에 맞는 metric으로 평가·학습.

8. 평가 지표에 익숙해지면

이 시리즈의 마지막 글 Cross-validation에서 진짜 평가 — 학습·검증의 분할·교차 — 를 다룹니다. 평가 지표 + cross-validation의 결합이 진짜 성능 측정.

다른 huny.log 글들과 자연스럽게 연결:

Multiple testing FDR — 여러 모델·여러 메트릭의 통계적 보정
Conformal Prediction — 평가 위에 신뢰구간
Sequential testing — 평가의 매일 모니터링

9. 마치며 — 지표 도구상자의 운영적 의미

평가 지표는 “모델이 얼마나 좋은가”의 질문에 답합니다. 하지만 “얼마나 좋은가”의 답이 자리마다 다르므로 지표 선택이 의사결정의 토대.

단일 지표 안 됨. 회귀 = MAE+MAPE, 분류 = Precision+Recall+AUC-PR. 비대칭 손실에 맞춤.

다음 글에서는 이 시리즈의 마지막 — Cross-validation을 다룹니다. 평가의 진짜 신뢰성 측정.

참고

Davis & Goadrich (2006), The Relationship Between Precision-Recall and ROC Curves, ICML — PR vs ROC 비교
Hastie, Tibshirani & Friedman (2009), The Elements of Statistical Learning — 평가 지표 종합
scikit-learn — Model evaluation 문서 — 운영 표준
Saito & Rehmsmeier (2015), The Precision-Recall Plot Is More Informative than the ROC Plot — 클래스 불균형 자리
Provost & Fawcett (2013), Data Science for Business — 비즈니스 측면 평가
huny.log 내부 글: 회귀와 분류, overfitting, Cross-validation(다음 글), Multiple testing FDR

통계·ML 카테고리의 다른 글