huny.log

tag

#harness

1개의 글

AI·LLM llm · evaluation

LLM evaluation harness — 분기마다 챗봇 품질을 자동 평가하는 공장

챗봇·에이전트가 운영에 들어가면 한 번 평가가 아니라 분기 자동 평가가 필요합니다. 골든셋·regression·hyperparameter A/B를 묶는 evaluation harness 설계와 마케팅 자리에서의 적용.