실험·인과추론 논문 5편 — 마케팅 실험의 뿌리가 된 원전 가이드

실험 플랫폼의 체크박스 하나, 대시보드의 보정 옵션 하나에는 대부분 원전 논문이 있습니다. 도구 사용법만 알아도 일은 돌아가지만, 원리를 알면 도구가 언제 거짓말하는지 보입니다. 이 글은 마케팅 실험과 인과추론의 토대가 된 논문 다섯 편을 연대순으로 골라, 각각이 어떤 문제를 풀었고 그 아이디어가 오늘 우리 캠페인 분석 어디에 박혀 있는지 정리합니다. 수식은 편당 하나씩만, 나머지는 직관으로 갑니다.

다섯 편을 고른 기준

선정 기준은 간단합니다. 첫째, 마케팅 실무에서 실제로 쓰는 기법의 원전일 것. 둘째, 초록과 도입부만 읽어도 얻어가는 게 있을 것. 학술적 중요도 순위가 아니라 실무자의 독서 우선순위입니다.

연도	논문	키워드	한 줄 요약
1994	Card & Krueger	Diff-in-Diff	실험 못 할 때, 변화량끼리 비교하라
2010	Abadie 외	Synthetic Control	대조군이 없으면 합성하라
2013	Deng 외	CUPED	실험 전 데이터로 분산을 깎아라
2017	Johari 외	Peeking	결과를 매일 보면 p값이 망가진다
2022	Bojinov 외	Switchback	쪼갤 수 없으면 시간으로 쪼개라

시간순으로 읽으면 흐름이 보입니다. 앞의 두 편은 “실험을 못 하는 상황에서 인과를 어떻게 건지나”라는 경제학의 고민이고, 뒤의 세 편은 “실험을 할 수 있게 된 시대에 어떻게 더 빠르고 정직하게 하나”라는 테크 기업의 고민입니다. 마케터는 양쪽 상황을 다 만나기 때문에 다섯 편 모두 해당됩니다.

1994 · Card & Krueger, 최저임금과 패스트푸드의 Diff-in-Diff

원제는 “Minimum Wages and Employment: A Case Study of the Fast-Food Industry in New Jersey and Pennsylvania”. 뉴저지주가 최저임금을 올렸을 때 고용이 줄었는지를 본 노동경제학 논문입니다. 마케팅과 무관해 보이지만, 여기서 쓰인 비교 방법이 모든 준실험(quasi-experiment) 분석의 표준이 됐습니다.

문제 상황은 이렇습니다. 뉴저지의 고용 변화만 보면 경기 효과와 최저임금 효과가 섞여 있습니다. 그래서 저자들은 최저임금을 안 올린 옆 동네 펜실베이니아를 대조군 삼아, 변화량끼리 비교했습니다.

\overset{τ}{^}_{D i D} = (Y_{N J}^{p os t} - Y_{N J}^{p r e}) - (Y_{P A}^{p os t} - Y_{P A}^{p r e})

공통으로 받은 충격(경기, 계절성)은 양쪽 변화량에 다 들어 있으니 빼면 사라지고, 처치 효과만 남는다는 논리입니다. 단, 처치가 없었다면 두 집단이 평행하게 움직였을 것이라는 가정(parallel trends)이 성립해야 합니다.

마케팅에서의 쓰임새는 셀 수 없습니다. 특정 지역만 가격 인상, 한 플랫폼만 프로모션 종료, 일부 매장만 리뉴얼. “처치 안 받은 비교 대상의 변화량을 빼라”는 이 한 수가, 전후 비교만 하던 보고서를 인과 분석으로 바꿉니다. 개념 정리는 Diff-in-Diff 인과추론 글에 따로 해뒀습니다.

2010 · Abadie 외, 대조군이 없으면 만들어 쓴다

원제는 “Synthetic Control Methods for Comparative Case Studies”. 캘리포니아의 담배 규제 효과를 측정하고 싶은데, 캘리포니아와 비슷한 주가 하나도 없다는 게 문제였습니다. DiD는 그럴듯한 대조군 하나를 요구하는데, 그게 없는 상황.

해법은 발상의 전환입니다. 다른 38개 주를 가중평균해서 가짜 캘리포니아를 합성합니다. 가중치는 처치 이전 기간의 흡연율 궤적이 진짜 캘리포니아와 최대한 비슷해지도록 데이터로 정합니다. 그렇게 만든 합성 대조군이 처치 이후에 걷는 길이 곧 “규제가 없었다면의 캘리포니아”입니다.

이 아이디어가 마케팅에 들어온 자리가 geo-lift 실험의 분석부입니다. TV 광고를 서울에만 틀었을 때, 나머지 도시들의 조합으로 합성 서울을 만들어 비교하는 식입니다. 단일 지역 캠페인, 단일 브랜드 이벤트처럼 처치 단위가 하나뿐인 상황에서 특히 강력합니다. 실무 응용은 Synthetic DiD로 채널 incrementality 보정에서 다뤘습니다.

주의할 점도 논문에 그대로 나옵니다. 합성에 쓴 기간에 과적합되면 처치 효과가 부풀거나 묻힙니다. 저자들이 제안한 placebo test(처치 안 받은 주에 같은 분석을 돌려 효과가 안 나오는지 확인)는 지금도 geo 분석 결과를 검증하는 표준 절차입니다.

2013 · Deng 외, 실험을 더 빨리 끝내는 CUPED

여기서부터 온라인 실험의 시대입니다. 원제는 “Improving the Sensitivity of Online Controlled Experiments by Utilizing Pre-Experiment Data”. Microsoft Bing의 실험 플랫폼 팀이 쓴 논문으로, 문제의식은 지극히 실무적입니다. 실험은 많고 트래픽은 한정돼 있으니, 같은 트래픽으로 더 작은 효과를 검출하고 싶다는 것.

핵심은 실험 전 데이터의 재발견입니다. 유저의 실험 중 지표 $Y$ 에서 실험 전 지표 $X$ 로 설명되는 부분을 회귀로 걷어내면, 처치 효과 추정치는 그대로인 채 분산만 줄어듭니다. 분산 감소율은 정확히 $1 - ρ^{2}$ ( $ρ$ 는 둘의 상관계수)이고, 유저 단위 지표에서 $ρ$ 가 높은 경우 실험 기간이 절반 가까이 단축됩니다.

Y_{i}^{c u p e d} = Y_{i} - θ (X_{i} - \overset{ˉ}{X}), θ^{*} = \frac{Cov ( Y , X )}{Var ( X )}

이 논문이 재밌는 건 수학보다 태도입니다. 검출력 부족이라는 오래된 문제를 “더 기다리자”가 아니라 “이미 가진 데이터를 더 쓰자”로 푼 것. 이후 Netflix, Booking.com, Airbnb가 모두 자사 플랫폼에 채택했고, Statsig·GrowthBook 같은 상용 도구에는 체크박스로 들어가 있습니다. 작동 원리와 적용 조건은 CUPED 분산 축소 기법 글에 정리돼 있습니다.

2017 · Johari 외, 결과를 매일 들여다보면 생기는 일

원제는 “Peeking at A/B Tests: Why It Matters, and What to Do About It”. 부제가 이미 실무자의 폐부를 찌릅니다. 대시보드가 실시간으로 갱신되는 시대에, 유의해지는 순간 실험을 멈추고 싶은 유혹을 누가 이기겠습니까.

문제는 고전적 t-검정의 p값이 “딱 한 번, 정해진 시점에 본다”는 전제로 설계됐다는 점입니다. 매일 들여다보면서 p < 0.05가 뜨는 순간 멈추면, 아무 효과가 없어도 거짓 양성이 5%가 아니라 수십 퍼센트까지 치솟습니다. 동전을 유리할 때까지 계속 던지는 것과 같은 구조라서요.

저자들의 답은 들여다보는 행동을 금지하는 게 아니라, 언제 봐도 깨지지 않는 통계량을 만드는 것이었습니다. always-valid p-value와 신뢰구간. mSPRT라는 순차검정 프레임에 기반하고, Optimizely에 실제로 탑재되면서 업계 표준 논쟁을 촉발했습니다. 매일 봐도 되는 실험 통계가 가능하다는 것, 대신 같은 표본에서는 고전 검정보다 보수적이라는 트레이드오프까지 포함해서요. 자세한 내용은 Sequential testing에서 다뤘습니다.

2022 · Bojinov 외, 유저를 못 쪼개면 시간을 쪼갠다

원제는 “Design and Analysis of Switchback Experiments”. 배달 플랫폼의 배차 알고리즘을 A/B 테스트한다고 해봅시다. 유저 절반에게만 새 알고리즘을 적용하면, 두 그룹이 같은 라이더 풀을 공유하기 때문에 실험군의 처치가 대조군의 경험을 오염시킵니다. 이른바 간섭(interference) 문제. 마켓플레이스, 가격 정책, 추천 피드처럼 유저들이 한 자원을 공유하는 시스템 전반에서 터지는 이슈입니다.

Switchback은 분할 단위를 유저에서 시간으로 바꿉니다. 시스템 전체에 처치를 켰다 껐다를 번갈아 적용하고, ON 구간과 OFF 구간의 지표를 비교합니다. 이 논문은 그동안 주먹구구로 쓰이던 이 설계에 수리적 기초를 깔았습니다. 구간을 얼마나 잘게 쪼갤지(이월 효과 대비 표본 수의 트레이드오프), 분석 시 구간 경계를 어떻게 버릴지 같은 설계 결정에 원칙을 제시한 게 기여입니다.

마케팅에서는 입찰 전략 변경, 전사 가격 프로모션, 푸시 발송 로직처럼 일부에게만 적용할 수 없는 처치의 실험에 씁니다. 개념 정리는 Switchback experiment 글을 참고하세요.

다섯 편을 잇는 줄기

따로 보면 다섯 가지 기법이지만, 묶어 보면 두 가지 질문에 대한 답의 진화입니다.

하나는 “무작위 배정이 불가능할 때 무엇을 비교할 것인가”. Card & Krueger는 변화량을, Abadie는 합성 대조군을 답으로 내놨습니다. 다른 하나는 “실험이 가능할 때 어떻게 더 효율적이고 정직하게 할 것인가”. Deng은 분산을 깎았고, Johari는 들여다봄을 합법화했고, Bojinov는 쪼갤 수 없는 것을 쪼갰습니다.

읽는 순서는 본인 상황 기준으로 고르면 됩니다. geo 캠페인 분석이 당면 과제면 1994·2010 페어를, 실험 플랫폼 운영이 고민이면 2013·2017 페어를, 마켓플레이스나 전사 정책 실험이면 2022를 먼저. 다섯 편 모두 도입부가 잘 쓰여 있어서, 수식 섹션을 건너뛰고 문제 정의와 결론만 읽어도 절반은 가져갑니다.

1994년부터 2022년까지 다섯 논문이 답한 질문의 흐름을 연대표로 정리한 다이어그램 — 앞의 두 편은 실험이 불가능한 세계의 답, 뒤의 세 편은 실험이 일상이 된 세계의 답이다.

마치며

논문 읽기는 마케터의 필수 업무가 아닙니다. 하지만 도구가 내놓는 숫자를 의심해야 하는 순간은 반드시 오고, 그때 원전의 가정 한 줄(parallel trends, 처치 전 데이터의 무오염, 고정표본 전제)을 아는 사람과 모르는 사람의 보고서는 다르게 생겼습니다. 다섯 편 모두 무료 공개돼 있으니, 당장 쓰는 기법의 원전 하나부터 초록만 읽어보세요. 30분이면 됩니다.