Creative testing scaling — 광고 소재 100개 평가의 운영 룰

LLM이 광고 카피·이미지 변형을 한 번에 100개씩 뽑아 줍니다. 운영자는 100개에 다 예산을 태울 수 없습니다 — 표본 분산 폭증, 예산 비효율, 운영 부담. 100개를 5~10개로 추리는 운영 룰이 필요합니다. 사전 필터(LLM-as-judge) + 예산 분배(Thompson Sampling) + 중도 cut(sequential 룰)의 3단계 표준 패턴을 정리합니다.

1. 100개 소재 풀이 만드는 3가지 부담

LLM 기반 카피·이미지 자동 생성으로 소재 풀이 한 자리당 100개 수준이 됐습니다. 운영의 3가지 부담:

표본 분산 — 100개에 예산 균등하면 각 소재의 데이터가 너무 적어 신뢰 못 함
예산 비효율 — 명백히 나쁜 소재에도 예산 일부 태우면 손실
운영 부담 — 매주 100개 분석은 사람이 못 함

운영 룰의 한 줄 답:

100개를 5~10개로 빠르게 추리고, 그 안에서만 진짜 시장 검증.

이 추리기가 3단계로 이루어집니다.

사전 필터 — 시장에 노출 전 LLM·임베딩으로 필터링 (100 → 30)
예산 분배 — Thompson Sampling으로 소재별 예산 자동 (30 → 10)
중도 cut — sequential 룰로 명백히 나쁜 소재 조기 종료 (10 → 5)

각 단계의 도구를 정리합니다.

100개 → 30개 → 10개 → 5개로 추려내는 3단계 funnel 다이어그램 — 3단계 funnel — 사전 필터·예산 분배·중도 cut. 각 단계마다 다른 도구가 다른 신호로 추려낸다.

2. 1단계 — 사전 필터 (100 → 30)

시장 노출 전 단계. 임프레션 비용 없이 풀을 추립니다.

2-1. 임베딩 중복 제거

100개 중 임베딩 cosine 0.95 이상은 같은 메시지의 변형. 클러스터링으로 다양성 보장. 임베딩 운영 글 참조.

100개 → 클러스터 30개 → 각 클러스터의 대표 1개씩

2-2. LLM-as-judge 1차 필터

LLM-as-judge 글 참조. 평가 기준:

톤 적합성 (브랜드 가이드라인 준수)
길이·정보량 적정
명백한 실수(오타·이상한 단어) 없음

LLM-as-judge로 명백히 나쁜 30~50% 자동 제거. 남는 게 30개 정도.

2-3. 과거 데이터 사전 스코어링

과거 캠페인 데이터로 학습된 CTR·CVR 예측 모델로 소재 사전 평가. 예측 점수 하위 30%는 시장 노출 전에 빼냄.

# 사전 필터링 한 묶음
filtered = []
for c in candidates:
    if not similar_to_existing(c, threshold=0.95):  # 중복 제거
        if llm_judge_score(c) > 4.0:                # LLM 1차 필터
            if predicted_ctr(c) > 0.02:              # 사전 예측
                filtered.append(c)

이게 본문에 박는 유일한 코드입니다. 3가지 필터의 결합 — 비용 거의 없이 100 → 30 추리기.

3. 2단계 — 예산 분배 (30 → 10)

30개 소재에 어떻게 예산을 분배할까. 균등 분배는 표본 부족, 직관 분배는 편향.

답은 Cold start Thompson Sampling. 각 소재의 CTR 사후 분포(Beta)에서 임프레션마다 샘플링해 가장 큰 값 선택. 자동으로:

데이터 적은 소재 → 사후 폭 넓음 → 가끔 큰 값 → 탐색
데이터 많고 좋은 소재 → 좁은 사후 → 안정적 활용
데이터 많고 나쁜 소재 → 좁은 사후, 낮은 평균 → 자동 제외

운영 결과:

첫 1주 — 모든 소재에 균등에 가까운 노출 (탐색)
둘째 주 — 좋은 소재에 트래픽 집중 (활용)
둘째 주 끝 — 상위 10개에 90% 트래픽

운영자가 매일 분석하지 않아도 자동으로 best 10이 떠오릅니다.

3-1. 콜드 스타트 사전

LLM 사전 점수·임베딩 거리를 Beta 사전의 시작점으로. 디폴트 Beta(1, 1) 대신 사전 점수 반영.

사전 점수	Beta 사전	의미
4.5/5	Beta(5, 95)	보통 CTR 5% 기대
3.5/5	Beta(3, 97)	보통 CTR 3% 기대
2.5/5	Beta(1, 99)	보통 CTR 1% 기대

LLM·임베딩 정보가 사전 분포에 들어가면 첫 1주의 탐색 비용이 줄어듭니다.

4. 3단계 — 중도 cut (10 → 5)

Thompson Sampling이 자동으로 좋은 소재에 트래픽을 몰지만, 명백히 나쁜 소재를 더 빨리 끊고 싶은 자리. Sequential testing이 그 자리.

각 소재에 always-valid 95% 신뢰구간을 매일 계산. 상한이 baseline 평균보다 낮으면 — 즉, “이 소재가 평균보다 좋을 가능성이 사실상 0”이면 — 자동 cut.

시점	소재	always-valid 95% CI	판정
Day 5	A	[0.02, 0.08]	유지
Day 5	B	[0.005, 0.025]	cut (상한 < baseline 0.03)
Day 5	C	[0.04, 0.12]	유지

이 룰이 깔리면 명백히 나쁜 소재는 5~7일 안에 자동 종료. 트래픽이 좋은 소재로 더 빨리 집중됩니다.

5. 마케팅 실무 케이스 3개

5-1. 광고 카피 자동 생성·평가 파이프라인

LLM이 매주 100개 카피 생성. 사전 필터로 30개, Thompson 1주 운영으로 10개, sequential cut으로 5개 finals. 운영자 매주 30분으로 진짜 시장 검증된 best 5를 손에 받음.

5-2. 이미지 소재 testing

이미지 30개 변형. 사전 필터에 image embedding 거리를 추가해 다양성 보장. Thompson으로 노출 자동 분배. 시각 소재의 시장 반응을 사람 직관 없이 데이터로 결정.

5-3. 이메일 subject line testing

같은 메일 발송 전 50개 subject 변형. 사전 LLM 필터 + 5,000명에 Thompson 분배 + 1일 후 cut. best 3 subject로 95,000명 본 발송. open rate 평균 15~25% 향상이 일반적.

6. 운영이 깨질 때 — 흔한 함정 3가지

6-1. 사전 필터가 진짜 시장과 다름

LLM-as-judge·임베딩 점수가 진짜 CTR과 다른 자리. 시장 검증 결과 vs 사전 점수의 일치율을 매주 측정. 65% 미만이면 사전 필터 신뢰 못 함, 다시 학습 필요.

6-2. Thompson 사전이 너무 강함

Beta(50, 950) 같은 강한 사전은 데이터가 와도 잘 안 움직입니다. Beta(3, 97) 정도의 약한 사전이 표준. Cold start 글 참조.

6-3. Sequential cut 임계가 너무 보수적

cut 임계가 너무 보수적이면 명백히 나쁜 소재가 1주 더 살아 예산 낭비. 도메인에 맞춰 임계 조정. 첫 분기는 보수적, 점차 공격적으로.

7. 마치며 — 100개 시대의 운영 표준

LLM·생성형 AI가 마케팅 소재를 100개씩 뽑아내는 시대에, 운영의 핵심은 “다 노출하기”가 아니라 “빨리 추리기”입니다. 3단계 funnel — 사전 필터·예산 분배·중도 cut — 이 운영 캘린더의 표준이 되어가고 있습니다.

운영자가 챙겨야 할 흐름:

주간 사이클 — 100개 생성 → 30 사전 → 10 Thompson → 5 finals
분기 검증 — 사전 필터 정확도·Thompson 수렴 점검
연간 재학습 — 사전 모델·Beta 사전·cut 임계 재추정

이 인프라가 깔리면 마케팅 팀 1명이 매주 100개의 가능성을 5개의 시장 검증 결과로 변환할 수 있습니다.

다음 글에서는 같은 자리의 또 다른 도구, customer segmentation의 mixture model을 다룹니다. k-means 너머의 세그먼테이션 도구.

참고

Schwartz, Bradlow & Fader (2017), Customer Acquisition via Display Advertising Using Multi-Armed Bandit Experiments, Marketing Science — MAB 광고 표준 사례
Russo, Van Roy, Kazerouni, Osband, Wen (2018), A Tutorial on Thompson Sampling — Thompson 산업 적용
Kohavi, Tang & Xu (2020), Trustworthy Online Controlled Experiments — 실험 운영 표준 교과서
Vowpal Wabbit — contextual bandit 운영 표준
Meta Advantage+ Creative — 매체 표준 자동화
huny.log 내부 글: LLM 카피 파이프라인, Cold start Thompson, Sequential testing, LLM-as-judge, 임베딩 운영

그로스해킹 카테고리의 다른 글