huny.log

tag

#rag

8개의 글

AI·LLM llm · evaluation

LLM evaluation harness — 분기마다 챗봇 품질을 자동 평가하는 공장

챗봇·에이전트가 운영에 들어가면 한 번 평가가 아니라 분기 자동 평가가 필요합니다. 골든셋·regression·hyperparameter A/B를 묶는 evaluation harness 설계와 마케팅 자리에서의 적용.

AI·LLM llm · context

Context engineering — 200k 토큰 컨텍스트의 설계 원칙 5가지

컨텍스트 창이 200k 토큰까지 커졌지만 단순히 다 넣으면 lost-in-the-middle·비용 폭발·정확도 하락이 옵니다. 마케팅 자동화에 적용하는 5가지 컨텍스트 설계 원칙.

AI·LLM rag · reranking

RAG 재순위(re-ranking) — cross-encoder로 검색 정밀도를 한 단계 올리기

벡터 검색이 가져온 Top 50을 LLM에 그대로 넘기면 정밀도가 깨집니다. cross-encoder 재순위가 그 50개를 다시 정렬해 Top 5만 LLM에 넘기면 답변 품질이 한 단계 올라갑니다.

AI·LLM vector-db · rag

Vector DB 비교 — pgvector·Pinecone·Qdrant·Weaviate를 마케터 시선에서

RAG 챗봇에 검색이 들어가면 vector DB 선택이 운영 비용·속도를 결정합니다. pgvector·Pinecone·Qdrant·Weaviate 4개를 비용·운영 부담·확장성·기능 차원에서 비교.

AI·LLM fine-tuning · rag

fine-tuning vs RAG vs prompting — 같은 LLM을 다르게 쓰는 세 도구의 분기

같은 LLM을 우리 자리에 맞게 쓰는 길이 세 갈래입니다 — prompting(지시), RAG(외부 검색), fine-tuning(모델 자체 변경). 비용·속도·정확도가 모두 다릅니다. 마케터·운영자가 어느 자리에 어느 도구를 골라야 하는지의 결정 트리.

AI·LLM llm-as-judge · evaluation

LLM-as-judge — 모델이 모델을 평가할 때 무엇이 깨지고 무엇이 살아남는가

광고 카피 자동 생성·RAG 답변 품질·챗봇 응답 평가는 사람이 다 못 봅니다. LLM에게 "이 출력이 좋은가"를 물어 점수를 받는 LLM-as-judge가 표준이 되어가지만, 그 자체가 깨지는 자리도 많습니다. position bias·verbosity bias를 알고 보정하는 운영법.

AI·LLM rag · latency

RAG 운영 비용·latency — 검색·생성·임베딩의 비용을 분리하고 깎는 법

RAG 챗봇이 잘 굴러갈수록 쿼리당 0.05달러·1.5초가 누적됩니다. 월 100만 쿼리면 5만 달러. 비용·latency를 검색·생성·임베딩 3축으로 분리해 어디서 깎을지 정리합니다. 정확도를 거의 안 깎고 비용을 1/3로 줄이는 운영 패턴.

AI·LLM rag · llm

RAG 시스템을 정량 평가하는 4가지 지표 — 마케팅 챗봇을 만든다면

마케팅 FAQ 챗봇·내부 위키 검색을 RAG로 만들 때, "답변이 맞다"를 어떻게 숫자로 증명할까. context relevance부터 faithfulness까지 4가지 지표를 케이스로 풀어봅니다.