huny.log

tag

#bias

1개의 글

AI·LLM llm-as-judge · evaluation

LLM-as-judge — 모델이 모델을 평가할 때 무엇이 깨지고 무엇이 살아남는가

광고 카피 자동 생성·RAG 답변 품질·챗봇 응답 평가는 사람이 다 못 봅니다. LLM에게 "이 출력이 좋은가"를 물어 점수를 받는 LLM-as-judge가 표준이 되어가지만, 그 자체가 깨지는 자리도 많습니다. position bias·verbosity bias를 알고 보정하는 운영법.