huny.log

기술 포스트 · 통계·ML

평가 지표 도구상자 — accuracy·precision·recall·AUC·MAPE 어디 쓸지

같은 모델·같은 데이터에 어떤 지표를 보느냐가 결론을 통째로 바꿉니다. accuracy 95%면 좋은 거? 클래스 불균형이면 의미 없을 수 있어요. 회귀·분류 평가 지표를 자리별로 정리한 운영 도구상자.

“이 모델 정확도 95%예요.” 좋은 말처럼 들리지만 클래스 불균형이 큰 자리(이탈률 5%)에선 의미 없는 숫자입니다. 같은 모델·같은 데이터에 어떤 평가 지표를 보느냐가 결론을 통째로 바꿉니다. 회귀·분류의 표준 지표 8가지·자리별 선택 가이드를 운영 도구상자 형태로 정리합니다.

1. 평가 지표가 의사결정을 바꾸는 자리

같은 이탈 예측 모델의 평가:

지표의미
Accuracy95%“잘 맞춤”
Precision90%“양성 예측 90% 진짜”
Recall12%“진짜 이탈자 12%만 잡음”
F121%“균형 평가 나쁨”
AUC-ROC0.85”분류 능력 좋음”
AUC-PR0.18”양성 예측 어려움”

같은 모델인데 어떤 지표를 보느냐에 따라 “잘 맞는 모델”부터 “거의 못 잡는 모델”까지 결론이 달라집니다. 평가 지표 선택은 의사결정의 핵심.

회귀·분류 평가 지표 8가지의 비교 다이어그램
같은 데이터·같은 모델에 다른 지표를 보면 다른 결론. 운영 자리의 비대칭 손실에 맞는 지표 선택이 핵심.

2. 분류 지표 — 5가지

2-1. Accuracy

전체 중 맞춘 비율. 가장 직관적이지만 클래스 불균형에 약함.

자리:

  • 균형 데이터 (이진 50:50, 다중 균등)
  • 의사결정자에게 단순 보고

피해야 할 자리:

  • 클래스 불균형 큰 자리 (이탈률 5%, 전환율 2%)

2-2. Precision

양성 예측 중 진짜 양성. False positive 비싼 자리에 적합.

자리:

  • 광고 타겟팅 — 잘못된 타겟 = 비용 낭비
  • 추천 — 잘못된 추천 = 사용자 신뢰 손실

2-3. Recall (Sensitivity)

진짜 양성 중 잡아낸 비율. False negative 비싼 자리에 적합.

자리:

  • 이탈 예측 — 놓치면 윈백 못 함
  • 사기 탐지 — 놓치면 손실
  • 의료 진단 — 놓치면 환자 위험

2-4. F1 Score

Precision·Recall의 조화 평균. 둘 사이 균형.

자리:

  • 둘 다 비싼 자리
  • 클래스 불균형의 종합 평가

2-5. AUC-ROC와 AUC-PR

ROC 곡선 — 임계값을 바꿔가며 (Recall, FPR) 그린 곡선. AUC가 그 아래 면적. 0.5는 무작위, 1.0이 완벽.

PR 곡선 — (Recall, Precision) 그린 곡선. 클래스 불균형에 더 민감.

자리적합한 AUC
균형 데이터AUC-ROC
클래스 불균형 (희귀 양성)AUC-PR
모델 비교둘 다

마케팅 자리는 거의 다 클래스 불균형 — AUC-PR이 더 적합한 경우 많음.

3. 회귀 지표 — 4가지

3-1. MAE (Mean Absolute Error)

평균 절대 오차. 직관적, outlier에 강함.

3-2. RMSE (Root Mean Squared Error)

큰 오차에 페널티. 정규 분포 가정에 적합. Outlier에 민감.

3-3. MAPE (Mean Absolute Percentage Error)

상대 오차. 단위 다른 자리 비교 가능. 0 근처 값에 위험.

3-4. R² (결정 계수)

설명된 분산 비율. 1에 가까울수록 좋음. 모델 비교에 적합.

자리적합한 지표
마케터 보고MAE·MAPE (직관적)
모델 비교RMSE·R²
Outlier 큰 자리MAE (RMSE보다 robust)
단위 다른 자리 비교MAPE

4. 비대칭 손실에 맞춘 지표 선택

운영 의사결정의 첫 질문: “어떤 종류의 오차가 더 비싼가.”

4-1. False Negative가 비쌈

이탈 예측·사기 탐지 — 놓치면 손실. Recall을 우선. 동시에 너무 낮은 Precision은 운영 부담 → F1 또는 PR-AUC.

4-2. False Positive가 비쌈

광고 타겟팅·푸시 알림 — 잘못 타겟이 비용. Precision을 우선.

4-3. 균형이 중요

추천 시스템 — 둘 다 비쌈. F1·AUC-PR.

4-4. 비용 비대칭이 명확하게 다름

이탈 놓침 = 100원 / 잘못 타겟 = 5원의 명확한 비대칭. 비용 가중 metric:

운영팀과 비용 비대칭 합의 → 가중 손실 함수 + 가중 평가 지표.

from sklearn.metrics import classification_report, roc_auc_score, average_precision_score
# 표준 분류 평가
print(classification_report(y_true, y_pred))
print('AUC-ROC:', roc_auc_score(y_true, y_proba))
print('AUC-PR:', average_precision_score(y_true, y_proba))

이게 본문에 박는 유일한 코드입니다. sklearn으로 평가 한 묶음. classification_report에 precision·recall·F1·support가 한 표.

5. Threshold 결정 — 분류 임계값의 운영 의미

분류 모델은 보통 확률(0~1)을 출력. “양성”으로 분류하는 임계값(보통 0.5)을 자리에 맞게 조정 가능.

임계값효과
0.3Recall 높음, Precision 낮음
0.5디폴트, 균형
0.7Precision 높음, Recall 낮음

운영 결정의 트리거 — 이탈 예측 모델의 임계값을 0.3으로 두면 더 많이 잡지만 잘못 타겟 비율 증가. 0.7로 두면 정확하게 잡지만 놓침 증가.

ROC·PR 곡선에서 비대칭 손실에 맞는 임계값 선택. 이 결정은 모델 학습 후의 운영 단계.

6. 마케팅 운영 자리별 지표 가이드

6-1. LTV 예측 (회귀)

  • 1차 — MAPE (상대 오차, 의사결정자 직관)
  • 2차 — MAE (절대 단가 한도 산정)
  • 모델 비교 — R² 또는 RMSE

6-2. 이탈 예측 (분류, 클래스 불균형)

  • 1차 — Recall (놓침 우선)
  • 2차 — AUC-PR (전체 평가)
  • 임계값 — 비용 비대칭에 맞춰 0.3~0.5 사이

6-3. CTR 예측 (회귀, 0~1 확률)

  • 1차 — Log Loss (cross-entropy)
  • 2차 — AUC-ROC (모델 비교)

6-4. 광고 타겟팅 (분류)

  • 1차 — Precision (False positive 비쌈)
  • 2차 — F1 (균형)

6-5. 추천 시스템 (분류·랭킹)

  • Precision@K — 상위 K개 추천 중 진짜 양성
  • Recall@K — 진짜 양성 중 상위 K에 들어간 비율
  • NDCG — 랭킹 품질

7. 평가 지표가 깨질 때 — 흔한 함정 3가지

7-1. 한 지표만 보고 결론

Accuracy 한 숫자로 결론 짓는 자리. 정확도 95%인데 진짜 양성 12%만 잡으면 모델이 실용 가치 없음. 항상 precision·recall·AUC를 같이.

7-2. 학습·검증·운영 지표가 매우 다름

학습 95% / 검증 80% / 운영 60%면 overfitting 또는 데이터 drift. 세 자리 지표를 매주 모니터링.

7-3. 비대칭 손실 무시

운영팀이 “False negative가 5배 비쌈”인데 평가는 F1으로. 모델은 균형으로 학습됐지만 운영 가치는 떨어짐. 비대칭 손실에 맞는 metric으로 평가·학습.

8. 평가 지표에 익숙해지면

이 시리즈의 마지막 글 Cross-validation에서 진짜 평가 — 학습·검증의 분할·교차 — 를 다룹니다. 평가 지표 + cross-validation의 결합이 진짜 성능 측정.

다른 huny.log 글들과 자연스럽게 연결:

9. 마치며 — 지표 도구상자의 운영적 의미

평가 지표는 “모델이 얼마나 좋은가”의 질문에 답합니다. 하지만 “얼마나 좋은가”의 답이 자리마다 다르므로 지표 선택이 의사결정의 토대.

단일 지표 안 됨. 회귀 = MAE+MAPE, 분류 = Precision+Recall+AUC-PR. 비대칭 손실에 맞춤.

다음 글에서는 이 시리즈의 마지막 — Cross-validation을 다룹니다. 평가의 진짜 신뢰성 측정.

참고

통계·ML 카테고리의 다른 글

전체 보기 →