평가 지표 도구상자 — accuracy·precision·recall·AUC·MAPE 어디 쓸지
같은 모델·같은 데이터에 어떤 지표를 보느냐가 결론을 통째로 바꿉니다. accuracy 95%면 좋은 거? 클래스 불균형이면 의미 없을 수 있어요. 회귀·분류 평가 지표를 자리별로 정리한 운영 도구상자.
“이 모델 정확도 95%예요.” 좋은 말처럼 들리지만 클래스 불균형이 큰 자리(이탈률 5%)에선 의미 없는 숫자입니다. 같은 모델·같은 데이터에 어떤 평가 지표를 보느냐가 결론을 통째로 바꿉니다. 회귀·분류의 표준 지표 8가지·자리별 선택 가이드를 운영 도구상자 형태로 정리합니다.
1. 평가 지표가 의사결정을 바꾸는 자리
같은 이탈 예측 모델의 평가:
| 지표 | 값 | 의미 |
|---|---|---|
| Accuracy | 95% | “잘 맞춤” |
| Precision | 90% | “양성 예측 90% 진짜” |
| Recall | 12% | “진짜 이탈자 12%만 잡음” |
| F1 | 21% | “균형 평가 나쁨” |
| AUC-ROC | 0.85 | ”분류 능력 좋음” |
| AUC-PR | 0.18 | ”양성 예측 어려움” |
같은 모델인데 어떤 지표를 보느냐에 따라 “잘 맞는 모델”부터 “거의 못 잡는 모델”까지 결론이 달라집니다. 평가 지표 선택은 의사결정의 핵심.
2. 분류 지표 — 5가지
2-1. Accuracy
전체 중 맞춘 비율. 가장 직관적이지만 클래스 불균형에 약함.
자리:
- 균형 데이터 (이진 50:50, 다중 균등)
- 의사결정자에게 단순 보고
피해야 할 자리:
- 클래스 불균형 큰 자리 (이탈률 5%, 전환율 2%)
2-2. Precision
양성 예측 중 진짜 양성. False positive 비싼 자리에 적합.
자리:
- 광고 타겟팅 — 잘못된 타겟 = 비용 낭비
- 추천 — 잘못된 추천 = 사용자 신뢰 손실
2-3. Recall (Sensitivity)
진짜 양성 중 잡아낸 비율. False negative 비싼 자리에 적합.
자리:
- 이탈 예측 — 놓치면 윈백 못 함
- 사기 탐지 — 놓치면 손실
- 의료 진단 — 놓치면 환자 위험
2-4. F1 Score
Precision·Recall의 조화 평균. 둘 사이 균형.
자리:
- 둘 다 비싼 자리
- 클래스 불균형의 종합 평가
2-5. AUC-ROC와 AUC-PR
ROC 곡선 — 임계값을 바꿔가며 (Recall, FPR) 그린 곡선. AUC가 그 아래 면적. 0.5는 무작위, 1.0이 완벽.
PR 곡선 — (Recall, Precision) 그린 곡선. 클래스 불균형에 더 민감.
| 자리 | 적합한 AUC |
|---|---|
| 균형 데이터 | AUC-ROC |
| 클래스 불균형 (희귀 양성) | AUC-PR |
| 모델 비교 | 둘 다 |
마케팅 자리는 거의 다 클래스 불균형 — AUC-PR이 더 적합한 경우 많음.
3. 회귀 지표 — 4가지
3-1. MAE (Mean Absolute Error)
평균 절대 오차. 직관적, outlier에 강함.
3-2. RMSE (Root Mean Squared Error)
큰 오차에 페널티. 정규 분포 가정에 적합. Outlier에 민감.
3-3. MAPE (Mean Absolute Percentage Error)
상대 오차. 단위 다른 자리 비교 가능. 0 근처 값에 위험.
3-4. R² (결정 계수)
설명된 분산 비율. 1에 가까울수록 좋음. 모델 비교에 적합.
| 자리 | 적합한 지표 |
|---|---|
| 마케터 보고 | MAE·MAPE (직관적) |
| 모델 비교 | RMSE·R² |
| Outlier 큰 자리 | MAE (RMSE보다 robust) |
| 단위 다른 자리 비교 | MAPE |
4. 비대칭 손실에 맞춘 지표 선택
운영 의사결정의 첫 질문: “어떤 종류의 오차가 더 비싼가.”
4-1. False Negative가 비쌈
이탈 예측·사기 탐지 — 놓치면 손실. Recall을 우선. 동시에 너무 낮은 Precision은 운영 부담 → F1 또는 PR-AUC.
4-2. False Positive가 비쌈
광고 타겟팅·푸시 알림 — 잘못 타겟이 비용. Precision을 우선.
4-3. 균형이 중요
추천 시스템 — 둘 다 비쌈. F1·AUC-PR.
4-4. 비용 비대칭이 명확하게 다름
이탈 놓침 = 100원 / 잘못 타겟 = 5원의 명확한 비대칭. 비용 가중 metric:
운영팀과 비용 비대칭 합의 → 가중 손실 함수 + 가중 평가 지표.
from sklearn.metrics import classification_report, roc_auc_score, average_precision_score
# 표준 분류 평가print(classification_report(y_true, y_pred))print('AUC-ROC:', roc_auc_score(y_true, y_proba))print('AUC-PR:', average_precision_score(y_true, y_proba))이게 본문에 박는 유일한 코드입니다. sklearn으로 평가 한 묶음. classification_report에 precision·recall·F1·support가 한 표.
5. Threshold 결정 — 분류 임계값의 운영 의미
분류 모델은 보통 확률(0~1)을 출력. “양성”으로 분류하는 임계값(보통 0.5)을 자리에 맞게 조정 가능.
| 임계값 | 효과 |
|---|---|
| 0.3 | Recall 높음, Precision 낮음 |
| 0.5 | 디폴트, 균형 |
| 0.7 | Precision 높음, Recall 낮음 |
운영 결정의 트리거 — 이탈 예측 모델의 임계값을 0.3으로 두면 더 많이 잡지만 잘못 타겟 비율 증가. 0.7로 두면 정확하게 잡지만 놓침 증가.
ROC·PR 곡선에서 비대칭 손실에 맞는 임계값 선택. 이 결정은 모델 학습 후의 운영 단계.
6. 마케팅 운영 자리별 지표 가이드
6-1. LTV 예측 (회귀)
- 1차 — MAPE (상대 오차, 의사결정자 직관)
- 2차 — MAE (절대 단가 한도 산정)
- 모델 비교 — R² 또는 RMSE
6-2. 이탈 예측 (분류, 클래스 불균형)
- 1차 — Recall (놓침 우선)
- 2차 — AUC-PR (전체 평가)
- 임계값 — 비용 비대칭에 맞춰 0.3~0.5 사이
6-3. CTR 예측 (회귀, 0~1 확률)
- 1차 — Log Loss (cross-entropy)
- 2차 — AUC-ROC (모델 비교)
6-4. 광고 타겟팅 (분류)
- 1차 — Precision (False positive 비쌈)
- 2차 — F1 (균형)
6-5. 추천 시스템 (분류·랭킹)
- Precision@K — 상위 K개 추천 중 진짜 양성
- Recall@K — 진짜 양성 중 상위 K에 들어간 비율
- NDCG — 랭킹 품질
7. 평가 지표가 깨질 때 — 흔한 함정 3가지
7-1. 한 지표만 보고 결론
Accuracy 한 숫자로 결론 짓는 자리. 정확도 95%인데 진짜 양성 12%만 잡으면 모델이 실용 가치 없음. 항상 precision·recall·AUC를 같이.
7-2. 학습·검증·운영 지표가 매우 다름
학습 95% / 검증 80% / 운영 60%면 overfitting 또는 데이터 drift. 세 자리 지표를 매주 모니터링.
7-3. 비대칭 손실 무시
운영팀이 “False negative가 5배 비쌈”인데 평가는 F1으로. 모델은 균형으로 학습됐지만 운영 가치는 떨어짐. 비대칭 손실에 맞는 metric으로 평가·학습.
8. 평가 지표에 익숙해지면
이 시리즈의 마지막 글 Cross-validation에서 진짜 평가 — 학습·검증의 분할·교차 — 를 다룹니다. 평가 지표 + cross-validation의 결합이 진짜 성능 측정.
다른 huny.log 글들과 자연스럽게 연결:
- Multiple testing FDR — 여러 모델·여러 메트릭의 통계적 보정
- Conformal Prediction — 평가 위에 신뢰구간
- Sequential testing — 평가의 매일 모니터링
9. 마치며 — 지표 도구상자의 운영적 의미
평가 지표는 “모델이 얼마나 좋은가”의 질문에 답합니다. 하지만 “얼마나 좋은가”의 답이 자리마다 다르므로 지표 선택이 의사결정의 토대.
단일 지표 안 됨. 회귀 = MAE+MAPE, 분류 = Precision+Recall+AUC-PR. 비대칭 손실에 맞춤.
다음 글에서는 이 시리즈의 마지막 — Cross-validation을 다룹니다. 평가의 진짜 신뢰성 측정.
참고
- Davis & Goadrich (2006), The Relationship Between Precision-Recall and ROC Curves, ICML — PR vs ROC 비교
- Hastie, Tibshirani & Friedman (2009), The Elements of Statistical Learning — 평가 지표 종합
- scikit-learn — Model evaluation 문서 — 운영 표준
- Saito & Rehmsmeier (2015), The Precision-Recall Plot Is More Informative than the ROC Plot — 클래스 불균형 자리
- Provost & Fawcett (2013), Data Science for Business — 비즈니스 측면 평가
- huny.log 내부 글: 회귀와 분류, overfitting, Cross-validation(다음 글), Multiple testing FDR
통계·ML 카테고리의 다른 글
전체 보기 →-
2026·05·10
마케팅 실험 플랫폼 설계 — 사내 A/B 시스템의 5가지 원칙
광고 플랫폼 자체 A/B로는 부족하고 외부 SaaS는 비쌉니다. 사내 마케팅 실험 플랫폼을 설계할 때 깔아야 할 split assignment·exposure log·SRM 검정·sequential safe·메타 표준 5가지 원칙.
-
2026·05·09
Bayesian A/B 테스트 심화 — prior 잡는 법과 HDI 해석
베이지안 A/B는 "p-value < 0.05"가 아니라 "B가 A보다 좋을 확률 0.92"를 줍니다. 그 확률이 정직하려면 prior를 잘 잡아야 하고, HDI를 잘못 읽으면 함정이 옵니다. 마케터 시선에서 prior·posterior·HDI 정리.
-
2026·05·09
Doubly robust estimation — IPW와 outcome 모델의 결합으로 인과 추정 안정화
PSM·IPW는 propensity 모델이 틀리면 무너지고, 회귀는 outcome 모델이 틀리면 무너집니다. doubly robust는 두 모델을 결합해 둘 중 하나만 맞으면 정직한 효과 추정. 마케팅 인과 분석의 안전판.
-
2026·05·09
Heterogeneous treatment effects — 평균 효과 너머의 개인별 효과
A/B 평균 효과 +5%p가 모든 사람에게 같지 않습니다. 일부에게는 +20%p, 일부에게는 -3%p. CATE·uplift forest로 효과의 이질성을 추정해 타겟 마케팅을 정밀화하는 흐름.