huny.log

tag

#pass-at-k

1개의 글

AI·LLM ai-agent · evaluation

AI 에이전트 평가 — pass@k와 trajectory eval로 다단계 추론을 검증하는 법

단일 응답 LLM은 정확도 한 숫자로 평가하면 됩니다. 도구를 쓰고·여러 단계를 거치는 에이전트는 그게 안 통합니다. pass@k·trajectory eval·tool-use 정확도까지 합쳐 다단계 추론을 검증하는 법, 마케팅 에이전트 운영에 그대로 가져갈 평가 도구.