Incrementality test 설계 — 어떤 도구를 어디에 쓸지 정하는 결정 트리

“이 캠페인이 진짜 매출을 만든 건가요, 어차피 살 사람한테 광고비만 태운 건가요?” 모든 마케터가 같은 질문에 부딪힙니다. 답하는 도구는 하나가 아닙니다 — user holdout·geo holdout·ghost ads·DiD·MMM 5가지가 각자 다른 자리에 적합합니다. 어떤 자리에 어떤 도구를 써야 하는지 결정 트리로 정리합니다. huny.log의 ROAS 글·geo-lift 글 등의 incrementality 시리즈를 묶는 운영 가이드.

1. Incrementality 5도구 한 줄 정리

incrementality test의 한 줄 정의는 다음입니다.

광고가 없었으면 일어나지 않았을 전환만 골라내기.

답하는 도구는 5가지로 자주 정리됩니다.

도구	처리 단위	데이터 요건	인과 보증	운영 부담
User holdout	유저	유저 단위 광고 노출 통제 가능	강함	보통
Ghost ads	임프레션	매체에 ghost 슬롯 지원	강함	매체 의존
Geo holdout	도시·지역	광고 매체 지역 차단 가능	강함	보통
DiD	유닛(카테고리·지역·코호트)	사전·사후 패널	평행 추세 가정	가벼움
MMM	채널 시계열	1년 이상 시계열	모델 가정	무거움

각 도구가 답하는 질문이 미묘하게 다릅니다.

User holdout — “이 캠페인을 본 유저의 추가 전환”
Ghost ads — “이 임프레션의 추가 전환” — 가장 정확
Geo holdout — “이 지역의 추가 매출”
DiD — “이 사건(가격·정책 변경)의 추가 효과”
MMM — “각 채널의 incremental 기여도, 장기 평균”

운영 결정의 첫 질문은 “내 자리에 어느 도구가 가능한가”입니다.

Incrementality 도구 결정 트리 다이어그램 — 광고 매체가 user holdout을 지원하나, ghost ads 가능한가, geo 분리 가능한가의 분기로 도구가 결정된다. 마지막 자리는 MMM·DiD.

2. 결정 트리 — 어떤 도구가 가능한가

질문을 위에서부터 차례로 답해보세요.

2-1. 매체가 user holdout을 지원하나

Meta·Google·TikTok 일부 캠페인은 광고 노출에서 일부 유저를 holdout으로 빼는 기능 제공. 가능하면 1순위.

장점 — 같은 매체·같은 시점·같은 유저 풀에서 노출/비노출 분리. 가장 깔끔
단점 — 매체에 따라 미지원, holdout 비율(보통 1~10%) 제한

2-2. Ghost ads가 가능한가

ghost ads — 처리군에는 진짜 광고, 대조군에는 같은 슬롯에 placeholder. 매체가 지원하면 가장 정확한 incrementality.

장점 — 노출 자체의 인과 효과. 매칭 편의 거의 없음
단점 — 매체 지원 제한, 운영 복잡도

2-3. 지역 분리가 가능한가

광고를 지역별로 켜고 끌 수 있으면 geo holdout. TV·OOH·오프라인 매장에 적합. huny.log의 geo-lift 글 참조.

장점 — 매체 의존 없음. 모든 지역 단위 광고에 적용 가능
단점 — 지역 spillover, 합성 대조군 추정 부담

2-4. 사건이 명확한 시점인가

가격 인상·프로모션 종료·UI 변경처럼 한 시점에 일어난 사건. DiD가 표준.

장점 — 단순. 회귀 한 줄
단점 — 평행 추세 가정. 처리·대조 분리 어려움

2-5. 1년 이상의 시계열이 있는가

채널 단위 장기 incrementality는 MMM. 광고 시계열·매출 시계열·시즌·매크로 변수 함께.

장점 — 채널 단위 incrementality, 예산 분배에 직결
단점 — 모델 부담, 단기 변화 못 잡음

3. 도구별 표본 크기·기간 가이드

각 도구의 운영적 첫 질문은 “얼마나 표본·기간이 필요한가”.

도구	최소 표본	최소 기간	검출 가능 효과
User holdout	처리 5만, 대조 5,000	4주	±5% lift
Ghost ads	임프레션 10만씩	2주	±3% lift
Geo holdout	도시 5+5 또는 합성 대조	4~8주	±10% lift
DiD	처리·대조 유닛 각 30+	사전·사후 6주씩	±15% lift
MMM	채널 데이터 104주	12~24개월 학습	채널 ROI ±20%

이 가이드라인을 못 채우면 결과 분산이 커서 의사결정에 못 씁니다.

4. 도구 결합 — 한 자리에 두 도구

운영 표준은 한 도구만 쓰는 게 아니라 두 도구의 결과를 비교·결합:

User holdout + MMM — 단기 + 장기 incrementality 결합
Ghost ads + DiD — 정밀한 임프레션 효과 + 큰 사건 효과
Geo holdout + Synthetic DiD — 공간 + 시간 결합 (Synthetic DiD 글)

두 도구가 비슷한 답을 주면 신뢰. 다른 답을 주면 어디서 차이가 오는지 분석. 이 차이가 incrementality 분석의 가장 가치 있는 학습 자리.

5. 코드는 한 줄 — 실험 설계 자동화

incrementality test 설계 자체는 코드보다 결정 트리가 핵심이지만, 표본 크기 계산 같은 자리는 자동화 가능.

import numpy as np
from scipy.stats import norm

def sample_size_for_lift(baseline_cvr, mde, alpha=0.05, power=0.8):
    z_alpha = norm.ppf(1 - alpha/2)
    z_power = norm.ppf(power)
    n = 2 * baseline_cvr * (1 - baseline_cvr) * (z_alpha + z_power)**2 / (baseline_cvr * mde)**2
    return int(np.ceil(n))

# 예: baseline 5% CVR, ±10% lift 검출
n = sample_size_for_lift(0.05, 0.1)
print(n)  # 그룹당 필요 표본 수

이게 본문에 박는 유일한 코드입니다. 표본 크기 한 줄 계산 — user holdout·ghost ads·geo holdout 모두 적용 가능.

6. 마케팅 실무 케이스 3개

6-1. Meta 광고 캠페인 — user holdout

Meta는 lift study(user holdout) 기능 제공. 4주 운영, 처리 95% / 대조 5%로. lift 결과로 캠페인 incremental ROAS 산정. last-click ROAS와 차이 분석. huny.log의 ROAS 글 참조.

6-2. TV·OOH 캠페인 — geo holdout

TV·OOH는 user holdout 불가. 대도시 5개에서 캠페인 켜고 인접 5개에서 끔. 4주 후 매출 비교 + Synthetic Control로 합성 대조군 보정.

6-3. 가격 인상의 효과 — DiD

가격 5% 인상 자체의 매출 효과. 한 카테고리 처리, 인접 카테고리 대조. 사전 8주 + 사후 8주. DiD 글의 표준 패턴.

7. 결정 트리가 깨질 때 — 흔한 함정 3가지

7-1. 도구 가능성을 사전 확인 안 함

매체가 user holdout 지원 안 하는 걸 모르고 캠페인 끝나고 분석 시작 — 이미 늦음. 캠페인 시작 전 도구 결정 트리를 거쳐 적합한 도구 사전 결정.

7-2. 표본·기간 미달

±5% lift를 검출하려면 표본이 매우 큼. 작은 캠페인에 user holdout 적용해도 신호가 노이즈에 묻힙니다. 표본 부족이면 더 큰 효과를 검출하는 자리(MMM·DiD)로 옮겨야 합니다.

7-3. 결과를 단일 도구로만 판단

한 도구의 결과는 가정 위에 있습니다. 두 도구 비교 없이 결정하면 가정 위반의 위험이 큽니다. 가능하면 다른 도구로 sanity check.

8. 마치며 — 결정 트리가 운영 캘린더의 일부

마케팅 채널·캠페인이 늘어나면 incrementality 측정이 운영의 핵심이 됩니다. 모든 캠페인을 측정할 필요는 없지만, 큰 예산이 들어가는 자리는 사전에 결정 트리를 거쳐야 사후 측정이 가능합니다.

운영 캘린더에 박을 흐름:

캠페인 기획 시 — 결정 트리로 incrementality 도구 사전 선택
캠페인 운영 — 표본·기간 가이드라인 만족하는지 확인
캠페인 종료 후 — 1차 도구 + 2차 sanity check
분기 종합 — MMM으로 채널 단위 incrementality 결합

이 4단계가 incrementality 운영의 표준 인프라가 됩니다.

다음 글에서는 같은 운영 자리의 또 다른 도구, creative testing scaling을 다룹니다. 카피·소재 100개를 평가할 때의 운영 룰.

참고

Lewis & Reiley (2014), Online Ads and Offline Sales: Measuring the Effects of Retail Advertising via a Controlled Experiment on Yahoo! — user holdout 표준 사례
Vaver & Koehler (2011), Measuring Ad Effectiveness Using Geo Experiments — geo holdout 표준
Stitch Fix — Incrementality Testing 운영 — 산업 적용 사례
PyMC-Marketing — MMM·BayesOpt·incrementality 통합
Meta Conversion Lift — user holdout 운영 도구
huny.log 내부 글: ROAS, geo-lift, DiD, MMM, Synthetic DiD

퍼포먼스 마케팅 카테고리의 다른 글