tag
1개의 글
AI·LLM llm-as-judge · evaluation
광고 카피 자동 생성·RAG 답변 품질·챗봇 응답 평가는 사람이 다 못 봅니다. LLM에게 "이 출력이 좋은가"를 물어 점수를 받는 LLM-as-judge가 표준이 되어가지만, 그 자체가 깨지는 자리도 많습니다. position bias·verbosity bias를 알고 보정하는 운영법.