LLM token economics — 자동화의 단위 경제학을 분기 보고로 끌고 가기

LLM 자동화 한 자리에 비용이 매월 얼마나 드는지 즉답할 수 있나요? 첫 청구서를 받기 전까지는 의외로 어렵습니다. 호출 수 × 입력 토큰 × 단가가 각각 어떻게 움직이는지 모르고 자동화를 운영하면, 분기 마감일에 “이번 분기 LLM 비용이 예상보다 3배”라는 숫자만 받게 됩니다. 이 글은 그 숫자를 분기 보고로 끌고 가는 단위 경제학 한 묶음을 정리합니다.

마케터가 이 글을 읽어야 하는 이유: LLM 자동화는 ROI가 큰 만큼 비용도 빠르게 커집니다. 호출당 비용·일일 합계·모델별 단가 차이를 미리 알면 분기 예산 결정이 정확해지고, 어느 자동화에 어느 모델을 쓸지 결정할 때 데이터가 따라옵니다. 비용 청구서가 통제 안에 들어와야 LLM 자동화가 운영의 표준 도구가 됩니다.

입력 토큰·출력 토큰·캐시 토큰의 단가 차이를 보여주는 다이어그램과 모델별 단가 비교 표 — 자동화 한 자리의 비용은 입력·출력·캐시·모델 4가지 변수로 거의 결정된다.

1. LLM 비용의 4개 변수

LLM API 비용은 단순한 공식으로 계산됩니다.

Cost = calls \sum (T_{in} \cdot p_{in} + T_{out} \cdot p_{out} - T_{cache} \cdot p_{cache discount})

$T_{in}$ : 호출당 입력 토큰
$T_{out}$ : 호출당 출력 토큰
$T_{cache}$ : 호출당 캐시 히트 토큰
$p$ : 토큰당 단가 (모델·종류별 다름)

이 4개 변수가 자동화 한 자리의 매월 비용을 거의 결정합니다.

2. 모델별 단가 — 자릿수 차이

2026년 기준 주요 모델 단가(1M 토큰당, USD).

모델	입력	출력	캐시 히트	추론(thinking)
GPT-5	$5	$15	$2.5	$15
GPT-5-mini	$0.50	$1.50	$0.25	—
Claude Opus 4.7	$15	$75	$1.5	—
Claude Sonnet 4.6	$3	$15	$0.30	—
Claude Haiku 4.5	$0.80	$4	$0.08	—
Gemini 2.5 Pro	$1.25	$5	$0.31	—
Gemini 2.5 Flash	$0.30	$2.50	$0.075	—

같은 작업이라도 모델 선택만으로 비용이 10-30배 차이. 입력 토큰이 많은 자리(긴 컨텍스트)는 입력 단가, 출력이 긴 자리(보고서 생성)는 출력 단가가 핵심.

항목	값
시스템 프롬프트	500 토큰
Few-shot 예시	1500 토큰
사용자 입력	100 토큰
출력	200 토큰
일일 호출	1000회

옵션	호출당	일일 1000회	월 비용
GPT-5 (no cache)	$0.0135	$13.5	$405
GPT-5 + caching	$0.0085	$8.5	$255
GPT-5-mini	$0.00135	$1.35	$40.5
GPT-5-mini + caching	$0.001	$1.0	$30

4. 코드 한 묶음 — 호출별 비용 추적

이게 글에 박는 유일한 코드입니다.

import json
from datetime import datetime

# 모델별 1M 토큰 단가 (USD)
PRICING = {
    "gpt-5":      {"in": 5.0, "out": 15.0, "cache": 2.5},
    "gpt-5-mini": {"in": 0.5, "out": 1.5,  "cache": 0.25},
    "claude-sonnet-4-6": {"in": 3.0, "out": 15.0, "cache": 0.30},
    "claude-haiku-4-5":  {"in": 0.8, "out": 4.0,  "cache": 0.08},
}

def cost_of_call(model, in_tokens, out_tokens, cache_tokens=0):
    p = PRICING[model]
    fresh_in = in_tokens - cache_tokens
    return (fresh_in * p["in"] + out_tokens * p["out"]
            + cache_tokens * p["cache"]) / 1_000_000

# 매 호출 후 로그
def log_llm_call(model, usage, task):
    cost = cost_of_call(
        model,
        usage.get("input_tokens", 0),
        usage.get("output_tokens", 0),
        usage.get("cache_read_input_tokens", 0),
    )
    record = {
        "ts": datetime.utcnow().isoformat(),
        "model": model, "task": task,
        "in": usage.get("input_tokens"),
        "out": usage.get("output_tokens"),
        "cache_hit": usage.get("cache_read_input_tokens"),
        "cost_usd": round(cost, 6),
    }
    with open("llm_costs.jsonl", "a") as f:
        f.write(json.dumps(record) + "\n")
    return cost

매 호출 후 이 함수만 부르면 비용 로그가 쌓입니다. 일별 합계·자동화별 합계·모델별 합계가 모두 한 줄 jq로 뽑힙니다.

5. 분기 보고에 박을 한 줄 표

운영팀과 함께 분기 보고에 가져갈 표 양식:

자동화	일일 호출	모델	호출당 비용	월 비용	트렌드
카피 양산	1000	gpt-5-mini	$0.0014	$42	↑
캠페인 분류	500	claude-haiku-4-5	$0.0008	$12	→
보고서 데이터단	200	claude-sonnet-4-6	$0.0046	$28	→
보고서 산문단	200	claude-opus-4-7	$0.045	$270	↑
RAG 챗봇	2000	gpt-5	$0.020	$1200	↑↑

이 표가 분기 보고의 표준 양식이 되면 의사결정 속도가 빨라집니다. 가장 비싼 자리(RAG 챗봇)에 caching 도입, 가장 빠르게 커지는 자리(보고서 산문)에 모델 다운그레이드 검토 등의 결정이 데이터로 답합니다.

6. 비용 폭주 흔한 자리

6-1. 출력 토큰 통제 안 함

max_tokens 미설정으로 모델이 긴 답을 생성하면 출력 비용이 폭주. 분류·라벨링 자리는 max_tokens=200, 보고서 자리는 max_tokens=2000처럼 자리에 맞춘 상한 필수.

6-2. 컨텍스트 길이 통제 안 함

RAG 컨텍스트가 매 호출마다 늘어나면 입력 비용도 비례. 트랜스포머 직관에서 다룬 것처럼 attention 비용이 길이 제곱이라 비용도 가파르게 증가. 컨텍스트 다이어트 필수.

6-3. 추론 모델(thinking) 남용

GPT-5의 thinking mode는 정확도가 높지만 비용이 입력의 3배. 단순 분류·요약 자리에 thinking을 켜두면 비용 폭증. 자리별로 thinking 필요성 검증.

6-4. 캐싱 누락

같은 페르소나·같은 시스템 프롬프트가 매 호출마다 재전송. caching 한 줄 누락으로 월 비용이 10배 차이. 자동화 도입 시 caching 적용 여부가 default 체크리스트에.

7. 자동화 ROI 계산 — 단순 공식

자동화의 가치를 비용 대비 비교하려면 ROI 계산이 필요합니다.

ROI = \frac{인력 시간 절감 가치 - LLM 비용}{LLM 비용}

예시: 카피 양산 자동화

사람: 카피 100개 작성에 4시간, 시간당 $50 =$ 200/일
LLM: 일일 100개 양산 비용 $5
절감 가치 = $200 -$ 5 = $195/일
ROI = $195/$ 5 = 3900%

대부분의 LLM 자동화 ROI가 1000%+ 자릿수입니다. 비용 통제는 ROI를 최적화하기 위한 것이지 비용 자체를 줄이기 위한 게 아닙니다.

자동화	일일 절감 시간	절감 가치	LLM 비용	ROI
카피 양산	4시간	$200	$5	3900%
캠페인 분류	2시간	$100	$1.5	6500%
보고서 자동화	6시간	$300	$50	500%
RAG 챗봇	8시간	$400	$100	300%

ROI가 낮은 자리(RAG 챗봇 300%)도 인력 시간이 충분히 크면 정당화됩니다. 다만 그 자리는 비용 통제가 더 중요합니다.

LLM 자동화는 ROI가 매우 높지만, 비용 통제가 안 되면 “이번 분기 비용이 예상보다 3배”라는 숫자가 분기 보고에 올라옵니다. 매 호출 후 비용 로그를 쌓고, 분기 보고에 자동화별 단위 경제학 표를 박아두면, 의사결정 속도가 빠르고 비용이 통제됩니다. 모델 선택·caching·max_tokens·컨텍스트 다이어트 — 이 4가지를 분기에 한 번씩 점검하세요.

다음 분기에 한 번만 시도해 볼 만한 것은 가장 큰 자동화 한 자리에 비용 로그를 추가하고 일일·주별 트렌드를 추적하는 흐름입니다. 의외로 비용 폭증의 절반이 한 자리에서 일어납니다.

다음에 읽을 글

Prompt caching — 입력 비용 90% 절감
트랜스포머 직관 — 길이 제곱 비용의 수학적 근거
RAG 비용·latency — RAG 자리의 단위 경제학

참고

OpenAI, “Pricing”: https://openai.com/api/pricing/
Anthropic, “Pricing”: https://www.anthropic.com/pricing
Google, “Gemini pricing”: https://ai.google.dev/pricing
“LLM cost analysis” (Artificial Analysis): https://artificialanalysis.ai/
“FrugalGPT” (Chen et al., 2023): https://arxiv.org/abs/2305.05176