Incrementality test 설계 — 어떤 도구를 어디에 쓸지 정하는 결정 트리
광고가 진짜 효과를 만들었는지 묻는 incrementality test는 한 도구가 아닙니다. user holdout·geo holdout·ghost ads·DiD·MMM 5가지가 각자 다른 자리에 답합니다. 어떤 도구를 어떤 자리에 써야 하는지 결정 트리로 정리.
“이 캠페인이 진짜 매출을 만든 건가요, 어차피 살 사람한테 광고비만 태운 건가요?” 모든 마케터가 같은 질문에 부딪힙니다. 답하는 도구는 하나가 아닙니다 — user holdout·geo holdout·ghost ads·DiD·MMM 5가지가 각자 다른 자리에 적합합니다. 어떤 자리에 어떤 도구를 써야 하는지 결정 트리로 정리합니다. huny.log의 ROAS 글·geo-lift 글 등의 incrementality 시리즈를 묶는 운영 가이드.
1. Incrementality 5도구 한 줄 정리
incrementality test의 한 줄 정의는 다음입니다.
광고가 없었으면 일어나지 않았을 전환만 골라내기.
답하는 도구는 5가지로 자주 정리됩니다.
| 도구 | 처리 단위 | 데이터 요건 | 인과 보증 | 운영 부담 |
|---|---|---|---|---|
| User holdout | 유저 | 유저 단위 광고 노출 통제 가능 | 강함 | 보통 |
| Ghost ads | 임프레션 | 매체에 ghost 슬롯 지원 | 강함 | 매체 의존 |
| Geo holdout | 도시·지역 | 광고 매체 지역 차단 가능 | 강함 | 보통 |
| DiD | 유닛(카테고리·지역·코호트) | 사전·사후 패널 | 평행 추세 가정 | 가벼움 |
| MMM | 채널 시계열 | 1년 이상 시계열 | 모델 가정 | 무거움 |
각 도구가 답하는 질문이 미묘하게 다릅니다.
- User holdout — “이 캠페인을 본 유저의 추가 전환”
- Ghost ads — “이 임프레션의 추가 전환” — 가장 정확
- Geo holdout — “이 지역의 추가 매출”
- DiD — “이 사건(가격·정책 변경)의 추가 효과”
- MMM — “각 채널의 incremental 기여도, 장기 평균”
운영 결정의 첫 질문은 “내 자리에 어느 도구가 가능한가”입니다.
2. 결정 트리 — 어떤 도구가 가능한가
질문을 위에서부터 차례로 답해보세요.
2-1. 매체가 user holdout을 지원하나
Meta·Google·TikTok 일부 캠페인은 광고 노출에서 일부 유저를 holdout으로 빼는 기능 제공. 가능하면 1순위.
- 장점 — 같은 매체·같은 시점·같은 유저 풀에서 노출/비노출 분리. 가장 깔끔
- 단점 — 매체에 따라 미지원, holdout 비율(보통 1~10%) 제한
2-2. Ghost ads가 가능한가
ghost ads — 처리군에는 진짜 광고, 대조군에는 같은 슬롯에 placeholder. 매체가 지원하면 가장 정확한 incrementality.
- 장점 — 노출 자체의 인과 효과. 매칭 편의 거의 없음
- 단점 — 매체 지원 제한, 운영 복잡도
2-3. 지역 분리가 가능한가
광고를 지역별로 켜고 끌 수 있으면 geo holdout. TV·OOH·오프라인 매장에 적합. huny.log의 geo-lift 글 참조.
- 장점 — 매체 의존 없음. 모든 지역 단위 광고에 적용 가능
- 단점 — 지역 spillover, 합성 대조군 추정 부담
2-4. 사건이 명확한 시점인가
가격 인상·프로모션 종료·UI 변경처럼 한 시점에 일어난 사건. DiD가 표준.
- 장점 — 단순. 회귀 한 줄
- 단점 — 평행 추세 가정. 처리·대조 분리 어려움
2-5. 1년 이상의 시계열이 있는가
채널 단위 장기 incrementality는 MMM. 광고 시계열·매출 시계열·시즌·매크로 변수 함께.
- 장점 — 채널 단위 incrementality, 예산 분배에 직결
- 단점 — 모델 부담, 단기 변화 못 잡음
3. 도구별 표본 크기·기간 가이드
각 도구의 운영적 첫 질문은 “얼마나 표본·기간이 필요한가”.
| 도구 | 최소 표본 | 최소 기간 | 검출 가능 효과 |
|---|---|---|---|
| User holdout | 처리 5만, 대조 5,000 | 4주 | ±5% lift |
| Ghost ads | 임프레션 10만씩 | 2주 | ±3% lift |
| Geo holdout | 도시 5+5 또는 합성 대조 | 4~8주 | ±10% lift |
| DiD | 처리·대조 유닛 각 30+ | 사전·사후 6주씩 | ±15% lift |
| MMM | 채널 데이터 104주 | 12~24개월 학습 | 채널 ROI ±20% |
이 가이드라인을 못 채우면 결과 분산이 커서 의사결정에 못 씁니다.
4. 도구 결합 — 한 자리에 두 도구
운영 표준은 한 도구만 쓰는 게 아니라 두 도구의 결과를 비교·결합:
- User holdout + MMM — 단기 + 장기 incrementality 결합
- Ghost ads + DiD — 정밀한 임프레션 효과 + 큰 사건 효과
- Geo holdout + Synthetic DiD — 공간 + 시간 결합 (Synthetic DiD 글)
두 도구가 비슷한 답을 주면 신뢰. 다른 답을 주면 어디서 차이가 오는지 분석. 이 차이가 incrementality 분석의 가장 가치 있는 학습 자리.
5. 코드는 한 줄 — 실험 설계 자동화
incrementality test 설계 자체는 코드보다 결정 트리가 핵심이지만, 표본 크기 계산 같은 자리는 자동화 가능.
import numpy as npfrom scipy.stats import norm
def sample_size_for_lift(baseline_cvr, mde, alpha=0.05, power=0.8): z_alpha = norm.ppf(1 - alpha/2) z_power = norm.ppf(power) n = 2 * baseline_cvr * (1 - baseline_cvr) * (z_alpha + z_power)**2 / (baseline_cvr * mde)**2 return int(np.ceil(n))
# 예: baseline 5% CVR, ±10% lift 검출n = sample_size_for_lift(0.05, 0.1)print(n) # 그룹당 필요 표본 수이게 본문에 박는 유일한 코드입니다. 표본 크기 한 줄 계산 — user holdout·ghost ads·geo holdout 모두 적용 가능.
6. 마케팅 실무 케이스 3개
6-1. Meta 광고 캠페인 — user holdout
Meta는 lift study(user holdout) 기능 제공. 4주 운영, 처리 95% / 대조 5%로. lift 결과로 캠페인 incremental ROAS 산정. last-click ROAS와 차이 분석. huny.log의 ROAS 글 참조.
6-2. TV·OOH 캠페인 — geo holdout
TV·OOH는 user holdout 불가. 대도시 5개에서 캠페인 켜고 인접 5개에서 끔. 4주 후 매출 비교 + Synthetic Control로 합성 대조군 보정.
6-3. 가격 인상의 효과 — DiD
가격 5% 인상 자체의 매출 효과. 한 카테고리 처리, 인접 카테고리 대조. 사전 8주 + 사후 8주. DiD 글의 표준 패턴.
7. 결정 트리가 깨질 때 — 흔한 함정 3가지
7-1. 도구 가능성을 사전 확인 안 함
매체가 user holdout 지원 안 하는 걸 모르고 캠페인 끝나고 분석 시작 — 이미 늦음. 캠페인 시작 전 도구 결정 트리를 거쳐 적합한 도구 사전 결정.
7-2. 표본·기간 미달
±5% lift를 검출하려면 표본이 매우 큼. 작은 캠페인에 user holdout 적용해도 신호가 노이즈에 묻힙니다. 표본 부족이면 더 큰 효과를 검출하는 자리(MMM·DiD)로 옮겨야 합니다.
7-3. 결과를 단일 도구로만 판단
한 도구의 결과는 가정 위에 있습니다. 두 도구 비교 없이 결정하면 가정 위반의 위험이 큽니다. 가능하면 다른 도구로 sanity check.
8. 마치며 — 결정 트리가 운영 캘린더의 일부
마케팅 채널·캠페인이 늘어나면 incrementality 측정이 운영의 핵심이 됩니다. 모든 캠페인을 측정할 필요는 없지만, 큰 예산이 들어가는 자리는 사전에 결정 트리를 거쳐야 사후 측정이 가능합니다.
운영 캘린더에 박을 흐름:
- 캠페인 기획 시 — 결정 트리로 incrementality 도구 사전 선택
- 캠페인 운영 — 표본·기간 가이드라인 만족하는지 확인
- 캠페인 종료 후 — 1차 도구 + 2차 sanity check
- 분기 종합 — MMM으로 채널 단위 incrementality 결합
이 4단계가 incrementality 운영의 표준 인프라가 됩니다.
다음 글에서는 같은 운영 자리의 또 다른 도구, creative testing scaling을 다룹니다. 카피·소재 100개를 평가할 때의 운영 룰.
참고
- Lewis & Reiley (2014), Online Ads and Offline Sales: Measuring the Effects of Retail Advertising via a Controlled Experiment on Yahoo! — user holdout 표준 사례
- Vaver & Koehler (2011), Measuring Ad Effectiveness Using Geo Experiments — geo holdout 표준
- Stitch Fix — Incrementality Testing 운영 — 산업 적용 사례
- PyMC-Marketing — MMM·BayesOpt·incrementality 통합
- Meta Conversion Lift — user holdout 운영 도구
- huny.log 내부 글: ROAS, geo-lift, DiD, MMM, Synthetic DiD
퍼포먼스 마케팅 카테고리의 다른 글
전체 보기 →-
2026·06·05
ROAS 보고서가 늘 거짓말하는 이유 — incrementality 3대장
Meta 대시보드 ROAS 5가 실제로는 1.x인 이유. last-click·view-through·incremental 세 가지 ROAS의 차이와, holdout·geo-lift·ghost ads·conversion lift로 진짜 증분을 측정하는 법을 마케터 시선으로 정리합니다.
-
2026·05·16
DSP·SSP·DMP 인프라 해부 — 매체 영업 미팅에서 듣는 약자들의 정체
매체 영업 미팅에서 DSP, SSP, DMP, CDP, ad exchange, 헤더비딩 같은 약자들이 쏟아집니다. 각각이 어느 회사이고, 광고비가 어디로 흘러가며, 마케터가 의사결정할 때 어떤 의미를 갖는지 한 글에 정리합니다.
-
2026·05·16
Lookback window가 ROAS를 바꾸는 법 — click 7d, view 1d, 28d, 90d의 차이
같은 캠페인이라도 attribution lookback window를 click 7d / view 1d / 28d / 90d 중 어느 걸로 보느냐에 따라 ROAS가 두 배까지 차이납니다. 매체별 default와 그것을 마케터가 어떻게 의사결정에 써야 하는지를 정리합니다.
-
2026·05·09
Brand lift study 설계 — 광고가 인지·호감도를 끌어올렸나
브랜드 광고는 ROAS로 잡히지 않고 인지·호감도·구매의향으로만 측정됩니다. 노출 그룹과 비노출 그룹을 비교하는 brand lift study의 설계, 표본 계산, 실무 함정을 마케터 시선에서 정리.