huny.log

tag

#caching

1개의 글

AI·LLM rag · latency

RAG 운영 비용·latency — 검색·생성·임베딩의 비용을 분리하고 깎는 법

RAG 챗봇이 잘 굴러갈수록 쿼리당 0.05달러·1.5초가 누적됩니다. 월 100만 쿼리면 5만 달러. 비용·latency를 검색·생성·임베딩 3축으로 분리해 어디서 깎을지 정리합니다. 정확도를 거의 안 깎고 비용을 1/3로 줄이는 운영 패턴.