LLM-as-judge — 모델이 모델을 평가할 때 무엇이 깨지고 무엇이 살아남는가
광고 카피 자동 생성·RAG 답변 품질·챗봇 응답 평가는 사람이 다 못 봅니다. LLM에게 "이 출력이 좋은가"를 물어 점수를 받는 LLM-as-judge가 표준이 되어가지만, 그 자체가 깨지는 자리도 많습니다. position bias·verbosity bias를 알고 보정하는 운영법.
광고 카피 100개를 LLM이 생성했는데 어느 것이 좋은지 사람이 다 평가할 수가 없습니다. RAG 챗봇 응답 1만 건 중 어느 것이 정확한지도 마찬가지. “GPT-4한테 물어보자”가 자연스러운 답이 됐고, 이게 LLM-as-judge입니다. 산업 표준 도구가 되고 있지만, 그 자체로 깨지는 자리도 많습니다. 어디서 깨지고 어떻게 보정하는지 마케터·운영자 시각으로 정리합니다.
1. LLM-as-judge가 빠르게 표준이 된 이유
생성형 AI를 쓰는 마케팅 자리는 모두 같은 문제에 부딪힙니다.
- 광고 카피 100개 생성 — 어느 게 가장 좋은가
- RAG 챗봇 응답 1만 건 — 정확한가, 도움이 되는가
- 이메일 제목 50개 변형 — open rate 예측 전에 인간 친화도 평가
- 프롬프트 5개 비교 — 어느 프롬프트의 출력이 더 적절한가
사람이 평가하는 건 정확하지만 비싸고 느리고 일관성이 들쭉날쭉합니다. 100개 카피를 두 명에게 평가시키면 의견 일치 비율이 70% 정도 나오는 게 흔합니다.
대안으로 떠오른 게 LLM-as-judge — GPT-4·Claude 같은 강한 모델에게 출력을 보여주고 점수를 받는 방식입니다. Zheng et al.(2023, MT-Bench·Chatbot Arena 논문)이 산업 표준 평가 프레임으로 정리했고, 지금은 RAGAS·DeepEval 같은 거의 모든 LLM 평가 라이브러리가 이 위에서 작동합니다.
장점이 명확합니다.
- 빠르고 싸다 — 카피 100개 평가에 5분, 5달러
- 일관성 — 같은 입력에 같은 점수 (random seed 고정 시)
- 확장 — 프롬프트로 평가 기준을 추가·변경 가능
문제는 “정확한가”입니다. LLM-as-judge는 그 자체로 다양한 편향을 가지고 있고, 그걸 모르고 쓰면 운영 결정의 토대가 흔들립니다.
2. 5가지 알려진 편향
LLM-as-judge의 편향은 단순한 노이즈가 아니라 체계적입니다. 운영 환경에서 의사결정의 방향을 바꿀 만큼 강합니다.
2-1. Position bias
두 후보 A·B를 비교할 때 A를 먼저 보여주면 A가 유리해지는 편향. Zheng et al.(2023)에서 GPT-4도 첫 번째 후보를 평균 5~15%p 더 자주 선택한다는 보고. 단순히 출력 순서가 의사결정을 바꾸는 자리입니다.
보정: 같은 두 후보를 두 번 평가하라 — 한 번은 A·B 순서, 한 번은 B·A 순서. 두 평가가 일치하면 신뢰, 어긋나면 무승부.
2-2. Verbosity bias
길고 자세한 답변이 더 좋아 보이는 편향. 짧고 정확한 답보다 길고 약간 부정확한 답을 선호. 챗봇 응답 평가에서 가장 흔한 함정입니다.
보정: 평가 프롬프트에 “길이로 평가하지 말고 정확도·간결성 둘 다 보라”는 명시적 지시. 또는 두 후보의 길이를 비슷하게 맞춘 후 평가.
2-3. 자기 선호(self-preference)
GPT-4가 자기 출력을 더 좋게 평가하는 편향. Claude·Gemini도 같은 패턴. 같은 모델로 생성과 평가를 같이 하면 그 모델이 유리한 방향으로 결과가 흐릅니다.
보정: 생성 모델과 평가 모델을 다르게. GPT-4 생성 → Claude 평가, Claude 생성 → GPT-4 평가. 또는 cross-validation처럼 여러 모델로 평가하고 평균.
2-4. 확신 편향(over-confidence)
LLM은 점수를 매길 때 확신을 너무 강하게 표현. “5점 만점에 4.5점” 같은 명확한 점수를 내지만 같은 입력을 다시 평가하면 다른 점수가 나오는 경우가 많음. 신뢰구간이 가짜 좁은 형태.
보정: 같은 평가를 5-10번 반복하고 분포를 보고. 점추정 한 숫자만 받지 말고 분산도 같이.
2-5. 도메인 편향
LLM이 학습 데이터에 더 많이 노출된 도메인(영어·미국 문화·일반 상식)에 익숙하고, 한국 마케팅·전문 용어 도메인에서는 평가 정확도가 떨어짐. “이 광고 카피가 자연스러운가”의 답이 영어 카피와 한국 카피에서 다른 정확도로 나옴.
보정: 도메인 특화 평가는 쓰리 단계 — LLM 사전 평가 → 의심스러운 자리만 사람 검토 → 결과로 LLM 평가 보정. 한 번에 다 LLM에 맡기지 않음.
3. 평가 프롬프트의 두 가지 유형
LLM-as-judge의 평가 프롬프트는 크게 두 형태로 나뉩니다.
| 유형 | 입력 | 출력 | 강점 | 약점 |
|---|---|---|---|---|
| 점수형 | 후보 1개 | 1~5점 | 절대값 비교 가능 | 모델 간 점수 분포 다름 |
| 비교형 | 후보 2개 | A/B/Tie | 일관성 강함 | 절대 품질 측정 약함 |
운영 표준은 비교형이 점수형보다 더 안정적입니다. Zheng et al.(2023)이 이 결론을 명확히 정리했고, MT-Bench·Chatbot Arena가 모두 비교형으로 작동합니다.
prompt = f"""두 응답 중 어느 것이 더 좋습니까?질문: {question}응답 A: {response_a}응답 B: {response_b}A·B·Tie 중 하나로 답하고 짧은 근거를 적으세요."""이게 본문에 박는 유일한 코드입니다. 비교형 프롬프트의 가장 단순한 형태. 운영에서는 평가 기준(정확도·간결성·실용성)을 명시적으로 추가하고, position bias 보정을 위해 같은 입력을 두 번(A·B, B·A) 호출합니다.
4. 평가 데이터의 표본 설계
LLM-as-judge로 운영 결정을 할 때 표본 설계가 의외로 중요합니다.
4-1. 골든셋 만들기
운영 시작점은 사람이 직접 평가한 골든셋 50-100개입니다. LLM-as-judge 결과와 골든셋의 일치율(agreement rate)을 측정해, LLM 평가가 우리 도메인에서 얼마나 신뢰할 수 있는지 사전 검증합니다.
좋은 일치율 가이드라인:
- 80% 이상 — 운영 사용 가능
- 65~80% — 보조 도구로만, 의사결정은 사람이
- 65% 미만 — 평가 프롬프트 수정 또는 다른 모델 사용
4-2. 평가 표본의 크기
운영 의사결정에 필요한 평가 표본은 보통 다음입니다.
- 카피 A/B 결정 — 후보 30~50개씩 평가, 비교형 결과의 비율로 결정
- RAG 응답 품질 모니터링 — 일별 200~500건 무작위 샘플
- 프롬프트 5개 중 1개 선택 — 각 프롬프트당 50개 평가 후 평균
표본이 30개 미만이면 분산이 너무 커 결정 신뢰도가 낮습니다.
5. 마케팅 실무 케이스 3개
5-1. 광고 카피 100개 자동 평가
LLM이 생성한 카피 100개를 LLM-as-judge로 평가해 상위 30개 추림. 이 30개에만 임프레션을 태워 진짜 CTR 데이터로 다시 검증. 사람이 100개 다 평가하는 비용을 1/10로 줄이면서 진짜 시장 검증과 결합한 운영.
5-2. RAG 챗봇 응답 품질 일일 모니터링
운영 중인 RAG 챗봇의 어제 응답 200건을 LLM-as-judge로 평가. context relevance·faithfulness·answer relevance 4점수를 매일 기록. 점수가 갑자기 떨어지면 알람 — 보통 검색 인덱스·LLM API 변화의 신호.
5-3. 프롬프트 변경 비교
새 프롬프트 안과 기존 프롬프트의 출력을 같은 입력 50개에 대해 비교형 LLM-as-judge로 평가. 새 안이 65% 이상 이기면 적용. 동률 30% 이상이면 무차이로 두고 기존 유지.
6. LLM-as-judge가 깨질 때 — 흔한 함정 3가지
6-1. 평가 프롬프트가 너무 모호함
“이 응답이 좋은가요?”는 너무 모호. LLM이 자기 멋대로 기준을 정합니다. 평가 기준을 3-5개로 명시하고, 각 기준에 대한 점수를 따로 받는 게 일관성을 만듭니다.
6-2. 같은 모델로 생성과 평가
GPT-4로 카피를 만들고 GPT-4로 평가하면 자기 선호 편향으로 결과가 부풀려집니다. 생성·평가 분리가 안 되면 LLM-as-judge 신뢰도가 통째로 깨집니다.
6-3. 골든셋 검증 없이 사용
도메인에서 사람과 일치율 검증 없이 바로 운영에 쓰면, LLM이 우리 도메인을 잘 평가하는지 모르는 상태입니다. 운영 결과가 잘못된 방향으로 누적될 수 있습니다.
7. 마치며 — 사람의 판단을 대체하는 게 아니라 늘리는 도구
LLM-as-judge를 처음 도입할 때 마케터가 가장 자주 빠지는 함정은 “LLM이 평가했으니 사람은 안 봐도 된다”는 가정입니다. 실제로는 그 반대입니다 — LLM-as-judge는 사람의 평가 능력을 100배로 확장해 주는 도구이지, 사람 판단을 대체하는 도구가 아닙니다.
운영 패턴은 보통 이렇게 됩니다.
- LLM이 1차 필터 (100개 → 상위 30개)
- 사람이 30개 정밀 평가 (상위 10개 결정)
- 시장이 최종 검증 (CTR·전환율로 sorting)
세 단계를 같이 쓰면 사람의 시간을 가장 큰 의사결정에만 쓸 수 있고, LLM이 빠르게 1차 필터를 처리합니다. AI 도구가 마케팅 운영에 가장 자연스럽게 들어가는 형태이기도 합니다.
다음 글에서는 같은 AI 운영 자리의 또 다른 도구, 임베딩 운영을 다룹니다. 임베딩이 시간에 따라 어떻게 흔들리고, drift를 어떻게 측정하느냐의 자리입니다.
참고
- Zheng et al. (2023), Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, NeurIPS — LLM-as-judge 산업 표준 평가 프레임 제시
- Wang et al. (2023), Large Language Models are not Fair Evaluators — position bias의 정량 분석
- Liu et al. (2023), G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment — 점수형 LLM-as-judge 표준
- RAGAS — RAG 평가 표준 라이브러리 — LLM-as-judge 운영 적용
- DeepEval — LLM 평가 프레임워크 — 골든셋·메트릭 표준
- huny.log 내부 글: RAG 평가 4지표, LLM 카피 파이프라인, LLM 에이전트 마케팅 리포트
AI·LLM 카테고리의 다른 글
전체 보기 →-
2026·05·16
LLM 운영 비용 폭주를 막는 6가지 guardrail — 마케팅 자동화의 cost·latency·품질 동시 관리
LLM을 운영에 올리면 어느 날 갑자기 비용이 10배로 튑니다. retry storm·프롬프트 폭증·모델 자동 승격·context 누적 등 폭주 패턴 6가지와 그것을 막는 guardrail을 정리합니다.
-
2026·05·10
LLM evaluation harness — 분기마다 챗봇 품질을 자동 평가하는 공장
챗봇·에이전트가 운영에 들어가면 한 번 평가가 아니라 분기 자동 평가가 필요합니다. 골든셋·regression·hyperparameter A/B를 묶는 evaluation harness 설계와 마케팅 자리에서의 적용.
-
2026·05·09
Context engineering — 200k 토큰 컨텍스트의 설계 원칙 5가지
컨텍스트 창이 200k 토큰까지 커졌지만 단순히 다 넣으면 lost-in-the-middle·비용 폭발·정확도 하락이 옵니다. 마케팅 자동화에 적용하는 5가지 컨텍스트 설계 원칙.
-
2026·05·09
Function calling 설계 패턴 — LLM이 도구를 부를 때 마케터가 점검할 것
LLM이 광고 API·BigQuery·Slack을 직접 부르기 시작하면, 답변 품질보다 "어느 도구를 언제 부를지"가 운영 사고의 진앙이 됩니다. function calling의 한 줄 직관과 마케터가 점검할 5가지.