LLM-as-judge — 모델이 모델을 평가할 때 무엇이 깨지고 무엇이 살아남는가

광고 카피 100개를 LLM이 생성했는데 어느 것이 좋은지 사람이 다 평가할 수가 없습니다. RAG 챗봇 응답 1만 건 중 어느 것이 정확한지도 마찬가지. “GPT-4한테 물어보자”가 자연스러운 답이 됐고, 이게 LLM-as-judge입니다. 산업 표준 도구가 되고 있지만, 그 자체로 깨지는 자리도 많습니다. 어디서 깨지고 어떻게 보정하는지 마케터·운영자 시각으로 정리합니다.

1. LLM-as-judge가 빠르게 표준이 된 이유

생성형 AI를 쓰는 마케팅 자리는 모두 같은 문제에 부딪힙니다.

광고 카피 100개 생성 — 어느 게 가장 좋은가
RAG 챗봇 응답 1만 건 — 정확한가, 도움이 되는가
이메일 제목 50개 변형 — open rate 예측 전에 인간 친화도 평가
프롬프트 5개 비교 — 어느 프롬프트의 출력이 더 적절한가

사람이 평가하는 건 정확하지만 비싸고 느리고 일관성이 들쭉날쭉합니다. 100개 카피를 두 명에게 평가시키면 의견 일치 비율이 70% 정도 나오는 게 흔합니다.

대안으로 떠오른 게 LLM-as-judge — GPT-4·Claude 같은 강한 모델에게 출력을 보여주고 점수를 받는 방식입니다. Zheng et al.(2023, MT-Bench·Chatbot Arena 논문)이 산업 표준 평가 프레임으로 정리했고, 지금은 RAGAS·DeepEval 같은 거의 모든 LLM 평가 라이브러리가 이 위에서 작동합니다.

장점이 명확합니다.

빠르고 싸다 — 카피 100개 평가에 5분, 5달러
일관성 — 같은 입력에 같은 점수 (random seed 고정 시)
확장 — 프롬프트로 평가 기준을 추가·변경 가능

문제는 “정확한가”입니다. LLM-as-judge는 그 자체로 다양한 편향을 가지고 있고, 그걸 모르고 쓰면 운영 결정의 토대가 흔들립니다.

LLM이 두 출력을 비교해 점수를 매기는 다이어그램과 편향 표시 — 강한 LLM에게 두 후보를 보여주고 점수를 받는다. 빠르고 일관적이지만 position bias·verbosity bias·자기선호 같은 편향이 함께 들어온다.

2. 5가지 알려진 편향

LLM-as-judge의 편향은 단순한 노이즈가 아니라 체계적입니다. 운영 환경에서 의사결정의 방향을 바꿀 만큼 강합니다.

2-1. Position bias

두 후보 A·B를 비교할 때 A를 먼저 보여주면 A가 유리해지는 편향. Zheng et al.(2023)에서 GPT-4도 첫 번째 후보를 평균 5~15%p 더 자주 선택한다는 보고. 단순히 출력 순서가 의사결정을 바꾸는 자리입니다.

보정: 같은 두 후보를 두 번 평가하라 — 한 번은 A·B 순서, 한 번은 B·A 순서. 두 평가가 일치하면 신뢰, 어긋나면 무승부.

2-2. Verbosity bias

길고 자세한 답변이 더 좋아 보이는 편향. 짧고 정확한 답보다 길고 약간 부정확한 답을 선호. 챗봇 응답 평가에서 가장 흔한 함정입니다.

보정: 평가 프롬프트에 “길이로 평가하지 말고 정확도·간결성 둘 다 보라”는 명시적 지시. 또는 두 후보의 길이를 비슷하게 맞춘 후 평가.

2-3. 자기 선호(self-preference)

GPT-4가 자기 출력을 더 좋게 평가하는 편향. Claude·Gemini도 같은 패턴. 같은 모델로 생성과 평가를 같이 하면 그 모델이 유리한 방향으로 결과가 흐릅니다.

보정: 생성 모델과 평가 모델을 다르게. GPT-4 생성 → Claude 평가, Claude 생성 → GPT-4 평가. 또는 cross-validation처럼 여러 모델로 평가하고 평균.

2-4. 확신 편향(over-confidence)

LLM은 점수를 매길 때 확신을 너무 강하게 표현. “5점 만점에 4.5점” 같은 명확한 점수를 내지만 같은 입력을 다시 평가하면 다른 점수가 나오는 경우가 많음. 신뢰구간이 가짜 좁은 형태.

보정: 같은 평가를 5-10번 반복하고 분포를 보고. 점추정 한 숫자만 받지 말고 분산도 같이.

2-5. 도메인 편향

LLM이 학습 데이터에 더 많이 노출된 도메인(영어·미국 문화·일반 상식)에 익숙하고, 한국 마케팅·전문 용어 도메인에서는 평가 정확도가 떨어짐. “이 광고 카피가 자연스러운가”의 답이 영어 카피와 한국 카피에서 다른 정확도로 나옴.

보정: 도메인 특화 평가는 쓰리 단계 — LLM 사전 평가 → 의심스러운 자리만 사람 검토 → 결과로 LLM 평가 보정. 한 번에 다 LLM에 맡기지 않음.

3. 평가 프롬프트의 두 가지 유형

LLM-as-judge의 평가 프롬프트는 크게 두 형태로 나뉩니다.

유형	입력	출력	강점	약점
점수형	후보 1개	1~5점	절대값 비교 가능	모델 간 점수 분포 다름
비교형	후보 2개	A/B/Tie	일관성 강함	절대 품질 측정 약함

운영 표준은 비교형이 점수형보다 더 안정적입니다. Zheng et al.(2023)이 이 결론을 명확히 정리했고, MT-Bench·Chatbot Arena가 모두 비교형으로 작동합니다.

prompt = f"""두 응답 중 어느 것이 더 좋습니까?
질문: {question}
응답 A: {response_a}
응답 B: {response_b}
A·B·Tie 중 하나로 답하고 짧은 근거를 적으세요."""

이게 본문에 박는 유일한 코드입니다. 비교형 프롬프트의 가장 단순한 형태. 운영에서는 평가 기준(정확도·간결성·실용성)을 명시적으로 추가하고, position bias 보정을 위해 같은 입력을 두 번(A·B, B·A) 호출합니다.

4. 평가 데이터의 표본 설계

LLM-as-judge로 운영 결정을 할 때 표본 설계가 의외로 중요합니다.

4-1. 골든셋 만들기

운영 시작점은 사람이 직접 평가한 골든셋 50-100개입니다. LLM-as-judge 결과와 골든셋의 일치율(agreement rate)을 측정해, LLM 평가가 우리 도메인에서 얼마나 신뢰할 수 있는지 사전 검증합니다.

좋은 일치율 가이드라인:

80% 이상 — 운영 사용 가능
65~80% — 보조 도구로만, 의사결정은 사람이
65% 미만 — 평가 프롬프트 수정 또는 다른 모델 사용

4-2. 평가 표본의 크기

운영 의사결정에 필요한 평가 표본은 보통 다음입니다.

카피 A/B 결정 — 후보 30~50개씩 평가, 비교형 결과의 비율로 결정
RAG 응답 품질 모니터링 — 일별 200~500건 무작위 샘플
프롬프트 5개 중 1개 선택 — 각 프롬프트당 50개 평가 후 평균

표본이 30개 미만이면 분산이 너무 커 결정 신뢰도가 낮습니다.

5. 마케팅 실무 케이스 3개

5-1. 광고 카피 100개 자동 평가

LLM이 생성한 카피 100개를 LLM-as-judge로 평가해 상위 30개 추림. 이 30개에만 임프레션을 태워 진짜 CTR 데이터로 다시 검증. 사람이 100개 다 평가하는 비용을 1/10로 줄이면서 진짜 시장 검증과 결합한 운영.

5-2. RAG 챗봇 응답 품질 일일 모니터링

운영 중인 RAG 챗봇의 어제 응답 200건을 LLM-as-judge로 평가. context relevance·faithfulness·answer relevance 4점수를 매일 기록. 점수가 갑자기 떨어지면 알람 — 보통 검색 인덱스·LLM API 변화의 신호.

5-3. 프롬프트 변경 비교

새 프롬프트 안과 기존 프롬프트의 출력을 같은 입력 50개에 대해 비교형 LLM-as-judge로 평가. 새 안이 65% 이상 이기면 적용. 동률 30% 이상이면 무차이로 두고 기존 유지.

6. LLM-as-judge가 깨질 때 — 흔한 함정 3가지

6-1. 평가 프롬프트가 너무 모호함

“이 응답이 좋은가요?”는 너무 모호. LLM이 자기 멋대로 기준을 정합니다. 평가 기준을 3-5개로 명시하고, 각 기준에 대한 점수를 따로 받는 게 일관성을 만듭니다.

6-2. 같은 모델로 생성과 평가

GPT-4로 카피를 만들고 GPT-4로 평가하면 자기 선호 편향으로 결과가 부풀려집니다. 생성·평가 분리가 안 되면 LLM-as-judge 신뢰도가 통째로 깨집니다.

6-3. 골든셋 검증 없이 사용

도메인에서 사람과 일치율 검증 없이 바로 운영에 쓰면, LLM이 우리 도메인을 잘 평가하는지 모르는 상태입니다. 운영 결과가 잘못된 방향으로 누적될 수 있습니다.

7. 마치며 — 사람의 판단을 대체하는 게 아니라 늘리는 도구

LLM-as-judge를 처음 도입할 때 마케터가 가장 자주 빠지는 함정은 “LLM이 평가했으니 사람은 안 봐도 된다”는 가정입니다. 실제로는 그 반대입니다 — LLM-as-judge는 사람의 평가 능력을 100배로 확장해 주는 도구이지, 사람 판단을 대체하는 도구가 아닙니다.

운영 패턴은 보통 이렇게 됩니다.

LLM이 1차 필터 (100개 → 상위 30개)
사람이 30개 정밀 평가 (상위 10개 결정)
시장이 최종 검증 (CTR·전환율로 sorting)

세 단계를 같이 쓰면 사람의 시간을 가장 큰 의사결정에만 쓸 수 있고, LLM이 빠르게 1차 필터를 처리합니다. AI 도구가 마케팅 운영에 가장 자연스럽게 들어가는 형태이기도 합니다.

다음 글에서는 같은 AI 운영 자리의 또 다른 도구, 임베딩 운영을 다룹니다. 임베딩이 시간에 따라 어떻게 흔들리고, drift를 어떻게 측정하느냐의 자리입니다.

참고

Zheng et al. (2023), Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena, NeurIPS — LLM-as-judge 산업 표준 평가 프레임 제시
Wang et al. (2023), Large Language Models are not Fair Evaluators — position bias의 정량 분석
Liu et al. (2023), G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment — 점수형 LLM-as-judge 표준
RAGAS — RAG 평가 표준 라이브러리 — LLM-as-judge 운영 적용
DeepEval — LLM 평가 프레임워크 — 골든셋·메트릭 표준
huny.log 내부 글: RAG 평가 4지표, LLM 카피 파이프라인, LLM 에이전트 마케팅 리포트

AI·LLM 카테고리의 다른 글