LLM token economics — 자동화의 단위 경제학을 분기 보고로 끌고 가기
LLM 자동화의 비용은 호출 수 × 입력 토큰 × 단가로 빠르게 커집니다. 호출별 비용·일일 합계·모델별 단위 경제학을 분기 보고에 박는 한 가지 표 양식.
LLM 자동화 한 자리에 비용이 매월 얼마나 드는지 즉답할 수 있나요? 첫 청구서를 받기 전까지는 의외로 어렵습니다. 호출 수 × 입력 토큰 × 단가가 각각 어떻게 움직이는지 모르고 자동화를 운영하면, 분기 마감일에 “이번 분기 LLM 비용이 예상보다 3배”라는 숫자만 받게 됩니다. 이 글은 그 숫자를 분기 보고로 끌고 가는 단위 경제학 한 묶음을 정리합니다.
마케터가 이 글을 읽어야 하는 이유: LLM 자동화는 ROI가 큰 만큼 비용도 빠르게 커집니다. 호출당 비용·일일 합계·모델별 단가 차이를 미리 알면 분기 예산 결정이 정확해지고, 어느 자동화에 어느 모델을 쓸지 결정할 때 데이터가 따라옵니다. 비용 청구서가 통제 안에 들어와야 LLM 자동화가 운영의 표준 도구가 됩니다.
1. LLM 비용의 4개 변수
LLM API 비용은 단순한 공식으로 계산됩니다.
- : 호출당 입력 토큰
- : 호출당 출력 토큰
- : 호출당 캐시 히트 토큰
- : 토큰당 단가 (모델·종류별 다름)
이 4개 변수가 자동화 한 자리의 매월 비용을 거의 결정합니다.
2. 모델별 단가 — 자릿수 차이
2026년 기준 주요 모델 단가(1M 토큰당, USD).
| 모델 | 입력 | 출력 | 캐시 히트 | 추론(thinking) |
|---|---|---|---|---|
| GPT-5 | $5 | $15 | $2.5 | $15 |
| GPT-5-mini | $0.50 | $1.50 | $0.25 | — |
| Claude Opus 4.7 | $15 | $75 | $1.5 | — |
| Claude Sonnet 4.6 | $3 | $15 | $0.30 | — |
| Claude Haiku 4.5 | $0.80 | $4 | $0.08 | — |
| Gemini 2.5 Pro | $1.25 | $5 | $0.31 | — |
| Gemini 2.5 Flash | $0.30 | $2.50 | $0.075 | — |
같은 작업이라도 모델 선택만으로 비용이 10-30배 차이. 입력 토큰이 많은 자리(긴 컨텍스트)는 입력 단가, 출력이 긴 자리(보고서 생성)는 출력 단가가 핵심.
3. 호출당 비용 계산 — 한 자동화의 단위 경제학
캠페인 분류 자동화를 예로 들겠습니다.
| 항목 | 값 |
|---|---|
| 시스템 프롬프트 | 500 토큰 |
| Few-shot 예시 | 1500 토큰 |
| 사용자 입력 | 100 토큰 |
| 출력 | 200 토큰 |
| 일일 호출 | 1000회 |
3-1. GPT-5 사용 시
호출당 비용:
- 입력: (500 + 1500 + 100) / 1\text{M} \times \5 = $0.0105$
- 출력: 200 / 1\text{M} \times \15 = $0.003$
- 호출당: \0.0135$
일일 1000회: \13.5$405$.
3-2. GPT-5-mini 사용 시
호출당:
- 입력: 2100 / 1\text{M} \times \0.50 = $0.00105$
- 출력: 200 / 1\text{M} \times \1.50 = $0.0003$
- 호출당: \0.00135$
일일 1000회: \1.35$40.5$. GPT-5의 1/10.
3-3. Caching 적용 GPT-5
Prompt caching을 적용하면 시스템 프롬프트·few-shot이 캐시 히트:
- 입력 (캐시 안 됨): 100 / 1\text{M} \times \5 = $0.0005$
- 입력 (캐시 히트): 2000 / 1\text{M} \times \2.5 = $0.005$
- 출력: \0.003$
- 호출당: \0.0085$ (37% 절감)
| 옵션 | 호출당 | 일일 1000회 | 월 비용 |
|---|---|---|---|
| GPT-5 (no cache) | $0.0135 | $13.5 | $405 |
| GPT-5 + caching | $0.0085 | $8.5 | $255 |
| GPT-5-mini | $0.00135 | $1.35 | $40.5 |
| GPT-5-mini + caching | $0.001 | $1.0 | $30 |
같은 작업에 모델·캐싱 조합으로 월 $30-405. 13배 차이.
4. 코드 한 묶음 — 호출별 비용 추적
이게 글에 박는 유일한 코드입니다.
import jsonfrom datetime import datetime
# 모델별 1M 토큰 단가 (USD)PRICING = { "gpt-5": {"in": 5.0, "out": 15.0, "cache": 2.5}, "gpt-5-mini": {"in": 0.5, "out": 1.5, "cache": 0.25}, "claude-sonnet-4-6": {"in": 3.0, "out": 15.0, "cache": 0.30}, "claude-haiku-4-5": {"in": 0.8, "out": 4.0, "cache": 0.08},}
def cost_of_call(model, in_tokens, out_tokens, cache_tokens=0): p = PRICING[model] fresh_in = in_tokens - cache_tokens return (fresh_in * p["in"] + out_tokens * p["out"] + cache_tokens * p["cache"]) / 1_000_000
# 매 호출 후 로그def log_llm_call(model, usage, task): cost = cost_of_call( model, usage.get("input_tokens", 0), usage.get("output_tokens", 0), usage.get("cache_read_input_tokens", 0), ) record = { "ts": datetime.utcnow().isoformat(), "model": model, "task": task, "in": usage.get("input_tokens"), "out": usage.get("output_tokens"), "cache_hit": usage.get("cache_read_input_tokens"), "cost_usd": round(cost, 6), } with open("llm_costs.jsonl", "a") as f: f.write(json.dumps(record) + "\n") return cost매 호출 후 이 함수만 부르면 비용 로그가 쌓입니다. 일별 합계·자동화별 합계·모델별 합계가 모두 한 줄 jq로 뽑힙니다.
5. 분기 보고에 박을 한 줄 표
운영팀과 함께 분기 보고에 가져갈 표 양식:
| 자동화 | 일일 호출 | 모델 | 호출당 비용 | 월 비용 | 트렌드 |
|---|---|---|---|---|---|
| 카피 양산 | 1000 | gpt-5-mini | $0.0014 | $42 | ↑ |
| 캠페인 분류 | 500 | claude-haiku-4-5 | $0.0008 | $12 | → |
| 보고서 데이터단 | 200 | claude-sonnet-4-6 | $0.0046 | $28 | → |
| 보고서 산문단 | 200 | claude-opus-4-7 | $0.045 | $270 | ↑ |
| RAG 챗봇 | 2000 | gpt-5 | $0.020 | $1200 | ↑↑ |
이 표가 분기 보고의 표준 양식이 되면 의사결정 속도가 빨라집니다. 가장 비싼 자리(RAG 챗봇)에 caching 도입, 가장 빠르게 커지는 자리(보고서 산문)에 모델 다운그레이드 검토 등의 결정이 데이터로 답합니다.
6. 비용 폭주 흔한 자리
6-1. 출력 토큰 통제 안 함
max_tokens 미설정으로 모델이 긴 답을 생성하면 출력 비용이 폭주. 분류·라벨링 자리는 max_tokens=200, 보고서 자리는 max_tokens=2000처럼 자리에 맞춘 상한 필수.
6-2. 컨텍스트 길이 통제 안 함
RAG 컨텍스트가 매 호출마다 늘어나면 입력 비용도 비례. 트랜스포머 직관에서 다룬 것처럼 attention 비용이 길이 제곱이라 비용도 가파르게 증가. 컨텍스트 다이어트 필수.
6-3. 추론 모델(thinking) 남용
GPT-5의 thinking mode는 정확도가 높지만 비용이 입력의 3배. 단순 분류·요약 자리에 thinking을 켜두면 비용 폭증. 자리별로 thinking 필요성 검증.
6-4. 캐싱 누락
같은 페르소나·같은 시스템 프롬프트가 매 호출마다 재전송. caching 한 줄 누락으로 월 비용이 10배 차이. 자동화 도입 시 caching 적용 여부가 default 체크리스트에.
7. 자동화 ROI 계산 — 단순 공식
자동화의 가치를 비용 대비 비교하려면 ROI 계산이 필요합니다.
예시: 카피 양산 자동화
- 사람: 카피 100개 작성에 4시간, 시간당 200/일
- LLM: 일일 100개 양산 비용 $5
- 절감 가치 = 5 = $195/일
- ROI = 5 = 3900%
대부분의 LLM 자동화 ROI가 1000%+ 자릿수입니다. 비용 통제는 ROI를 최적화하기 위한 것이지 비용 자체를 줄이기 위한 게 아닙니다.
| 자동화 | 일일 절감 시간 | 절감 가치 | LLM 비용 | ROI |
|---|---|---|---|---|
| 카피 양산 | 4시간 | $200 | $5 | 3900% |
| 캠페인 분류 | 2시간 | $100 | $1.5 | 6500% |
| 보고서 자동화 | 6시간 | $300 | $50 | 500% |
| RAG 챗봇 | 8시간 | $400 | $100 | 300% |
ROI가 낮은 자리(RAG 챗봇 300%)도 인력 시간이 충분히 크면 정당화됩니다. 다만 그 자리는 비용 통제가 더 중요합니다.
8. 마치며 — 비용 통제는 자동화의 운영 안정성
LLM 자동화는 ROI가 매우 높지만, 비용 통제가 안 되면 “이번 분기 비용이 예상보다 3배”라는 숫자가 분기 보고에 올라옵니다. 매 호출 후 비용 로그를 쌓고, 분기 보고에 자동화별 단위 경제학 표를 박아두면, 의사결정 속도가 빠르고 비용이 통제됩니다. 모델 선택·caching·max_tokens·컨텍스트 다이어트 — 이 4가지를 분기에 한 번씩 점검하세요.
다음 분기에 한 번만 시도해 볼 만한 것은 가장 큰 자동화 한 자리에 비용 로그를 추가하고 일일·주별 트렌드를 추적하는 흐름입니다. 의외로 비용 폭증의 절반이 한 자리에서 일어납니다.
다음에 읽을 글
- Prompt caching — 입력 비용 90% 절감
- 트랜스포머 직관 — 길이 제곱 비용의 수학적 근거
- RAG 비용·latency — RAG 자리의 단위 경제학
참고
- OpenAI, “Pricing”: https://openai.com/api/pricing/
- Anthropic, “Pricing”: https://www.anthropic.com/pricing
- Google, “Gemini pricing”: https://ai.google.dev/pricing
- “LLM cost analysis” (Artificial Analysis): https://artificialanalysis.ai/
- “FrugalGPT” (Chen et al., 2023): https://arxiv.org/abs/2305.05176
AI·LLM 카테고리의 다른 글
전체 보기 →-
2026·05·16
LLM 운영 비용 폭주를 막는 6가지 guardrail — 마케팅 자동화의 cost·latency·품질 동시 관리
LLM을 운영에 올리면 어느 날 갑자기 비용이 10배로 튑니다. retry storm·프롬프트 폭증·모델 자동 승격·context 누적 등 폭주 패턴 6가지와 그것을 막는 guardrail을 정리합니다.
-
2026·05·10
LLM evaluation harness — 분기마다 챗봇 품질을 자동 평가하는 공장
챗봇·에이전트가 운영에 들어가면 한 번 평가가 아니라 분기 자동 평가가 필요합니다. 골든셋·regression·hyperparameter A/B를 묶는 evaluation harness 설계와 마케팅 자리에서의 적용.
-
2026·05·09
Context engineering — 200k 토큰 컨텍스트의 설계 원칙 5가지
컨텍스트 창이 200k 토큰까지 커졌지만 단순히 다 넣으면 lost-in-the-middle·비용 폭발·정확도 하락이 옵니다. 마케팅 자동화에 적용하는 5가지 컨텍스트 설계 원칙.
-
2026·05·09
Function calling 설계 패턴 — LLM이 도구를 부를 때 마케터가 점검할 것
LLM이 광고 API·BigQuery·Slack을 직접 부르기 시작하면, 답변 품질보다 "어느 도구를 언제 부를지"가 운영 사고의 진앙이 됩니다. function calling의 한 줄 직관과 마케터가 점검할 5가지.