huny.log

tag

#evaluation

6개의 글

AI·LLM llm · evaluation

LLM evaluation harness — 분기마다 챗봇 품질을 자동 평가하는 공장

챗봇·에이전트가 운영에 들어가면 한 번 평가가 아니라 분기 자동 평가가 필요합니다. 골든셋·regression·hyperparameter A/B를 묶는 evaluation harness 설계와 마케팅 자리에서의 적용.

AI·LLM ai-agent · evaluation

AI 에이전트 평가 — pass@k와 trajectory eval로 다단계 추론을 검증하는 법

단일 응답 LLM은 정확도 한 숫자로 평가하면 됩니다. 도구를 쓰고·여러 단계를 거치는 에이전트는 그게 안 통합니다. pass@k·trajectory eval·tool-use 정확도까지 합쳐 다단계 추론을 검증하는 법, 마케팅 에이전트 운영에 그대로 가져갈 평가 도구.

통계·ML cross-validation · k-fold

Cross-validation 기초 — 진짜 모델 성능을 측정하는 자리

학습 정확도 95% / 운영 정확도 60%의 함정은 검증 분할이 잘못됐기 때문입니다. cross-validation은 같은 데이터를 여러 번 쪼개 학습·평가해 진짜 일반화 능력을 측정합니다. K-fold·시계열 CV·운영 적용까지, ML 기초의 마지막 자리.

통계·ML evaluation · metrics

평가 지표 도구상자 — accuracy·precision·recall·AUC·MAPE 어디 쓸지

같은 모델·같은 데이터에 어떤 지표를 보느냐가 결론을 통째로 바꿉니다. accuracy 95%면 좋은 거? 클래스 불균형이면 의미 없을 수 있어요. 회귀·분류 평가 지표를 자리별로 정리한 운영 도구상자.

AI·LLM llm-as-judge · evaluation

LLM-as-judge — 모델이 모델을 평가할 때 무엇이 깨지고 무엇이 살아남는가

광고 카피 자동 생성·RAG 답변 품질·챗봇 응답 평가는 사람이 다 못 봅니다. LLM에게 "이 출력이 좋은가"를 물어 점수를 받는 LLM-as-judge가 표준이 되어가지만, 그 자체가 깨지는 자리도 많습니다. position bias·verbosity bias를 알고 보정하는 운영법.

AI·LLM rag · llm

RAG 시스템을 정량 평가하는 4가지 지표 — 마케팅 챗봇을 만든다면

마케팅 FAQ 챗봇·내부 위키 검색을 RAG로 만들 때, "답변이 맞다"를 어떻게 숫자로 증명할까. context relevance부터 faithfulness까지 4가지 지표를 케이스로 풀어봅니다.