MMM의 prior 잡기 — 사전 지식을 데이터에 어떻게 녹이나

들어가며

Bayesian MMM이 OLS와 다른 결정적 지점은 prior — 데이터를 보기 전에 분석가가 가지고 있는 믿음을 분포로 표현하는 단계 — 입니다. prior를 잘 잡으면 작은 데이터(주 단위 2년 = 104주)로도 안정적인 채널 기여도를 뽑고, 잘못 잡으면 데이터가 prior에 짓눌려 의사결정이 휘어집니다. 이 글은 marketer/analyst가 prior를 어떻게 만들고, 어떻게 검증하고, 분기마다 어떻게 업데이트하는지를 정리합니다.

prior 분포가 데이터를 만나 posterior로 갱신되는 베이지안 업데이트 다이어그램 — prior + 데이터 = posterior — 그 사이에 분석가의 판단이 살아 있다

prior가 무엇인가

한 줄 정의

prior는 분석가가 데이터를 보기 전에 가지고 있는 파라미터에 대한 믿음입니다. Bayesian 추정에서 이 믿음과 데이터가 합쳐져 posterior를 만들고, posterior가 의사결정에 쓰이는 분포입니다.

p (θ ∣ data) \propto p (data ∣ θ) \cdot p (θ)

좌변은 데이터를 본 뒤의 분포(posterior), 우변은 likelihood × prior입니다. 데이터가 풍부하면 likelihood가 답을 압도하고, 데이터가 빈약하면 prior가 더 비중을 갖습니다.

왜 MMM에서 prior가 특히 중요한가

MMM의 데이터 단위는 주·월입니다. 2년치 데이터가 104주, 채널이 5개에 외생 변수까지 더하면 파라미터 수와 데이터 수가 가까워집니다. 이런 상황에서 OLS는 불안정하고 Bayesian의 prior 정규화가 필요합니다 — prior가 사실상 모델의 기둥입니다.

prior를 만드는 4가지 출처

1) Lift 실험 결과

가장 직접적인 prior 출처입니다. Geo-Lift 실험에서 “Meta incrementality 30%“라는 결과를 얻었다면, MMM의 Meta 채널 ROI prior 평균을 그쪽에 맞춥니다.

prior_{Meta ROI} \sim N (μ = lift result, σ)

stddev는 lift 결과의 신뢰구간 폭에 맞춰 잡습니다. 결과가 90% CI [25%, 35%]면 stddev를 약 3% 정도로 잡아 그 폭을 표현합니다.

2) 매체 통념·업계 벤치마크

특정 채널의 adstock decay나 saturation half-saturation은 매체 특성으로 어느 정도 알려진 값이 있습니다.

채널	adstock $α$ 통념	비고
검색 광고	0.1~0.3	즉시 반응
Meta·TikTok	0.3~0.5	중간
YouTube	0.5~0.7	브랜드성
TV·OOH	0.6~0.8	잔향 큼

이 값을 prior 평균으로 잡고 stddev는 0.1~0.15 정도로 두면 데이터가 통념과 다를 때 데이터 쪽으로 움직일 여지가 남습니다.

3) 작년·전분기 데이터

작년 동분기 MMM의 posterior 평균을 올해 prior 평균으로 사용하는 게 가장 실용적인 방식입니다. 매년 같은 회사·같은 채널이라면 prior가 점점 정확해지고, 데이터 변동에 모델이 덜 흔들립니다.

4) 도메인 전문가 인터뷰

마케팅팀 베테랑이 “TV는 분기 안에서는 효과가 비슷하다”고 하면 시간 변동 prior를 좁게 잡습니다. 분석팀이 “검색 ROI는 7~9 사이 어디일 것”이라고 하면 그 구간을 평균과 stddev로 표현합니다.

이 정성적 지식을 분포로 변환하는 작업이 prior elicitation의 핵심이고, 통계 책에 안 나오는 마케팅 도메인 전문성이 들어가는 자리입니다.

prior의 형태 — 어떤 분포를 쓸 것인가

Half-Normal·Gamma — 양수 파라미터에

채널 ROI나 adstock decay 같은 음수가 될 수 없는 파라미터는 half-normal 또는 gamma 분포로 잡습니다.

prior \sim HalfNormal (σ)

평균은 $σ \cdot 2/ π \approx 0.8 σ$ 근처에 옵니다.

Beta — 0과 1 사이 비율에

adstock decay rate $α$ 처럼 0~1 사이 비율은 Beta 분포가 적합합니다.

prior \sim Beta (a, b)

평균이 $a / (a + b)$ 이고, $a + b$ 가 클수록 분산이 작습니다.

LogNormal — 광범위 양수에

기여도(contribution)나 baseline 매출처럼 양수이고 분포가 넓은 변수는 LogNormal이 적합합니다.

prior가 너무 좁거나 너무 넓을 때

너무 좁은 prior

prior stddev가 평균의 5% 수준으로 좁으면 데이터가 무시당합니다. posterior가 prior와 거의 같이 나오고, MMM이 데이터를 학습하는 게 아니라 사전 가정을 그대로 출력하게 됩니다.

증상:

posterior 평균과 prior 평균의 차이가 5% 미만
새 데이터를 추가해도 posterior가 거의 안 움직임
posterior 신뢰구간이 prior와 거의 동일

너무 넓은 prior

반대로 prior stddev가 평균의 100%를 넘으면 작은 데이터에서 모델이 폭주합니다. 채널 계수가 음수로 추정되거나, 채널 간 기여도가 매분기 휙휙 바뀝니다.

증상:

분기마다 채널 기여도가 30% 이상 변동
posterior 신뢰구간이 prior와 비슷하게 넓음
채널 계수의 부호가 직관과 어긋남

prior 민감도 분석 — 분기 1회 점검

절차

현재 prior로 fit하고 posterior 결과 저장
채널 ROI prior의 평균을 ±30% 흔들고 다시 fit
채널 기여도 결과의 변화율 측정
변화율이 크다면 그 prior에 의사결정이 의존하는 신호

안전 기준

변화율	해석	액션
< 5%	데이터가 답을 결정	OK
5~15%	prior와 데이터의 균형	주의해서 사용
> 15%	prior가 결과 결정	의사결정 신뢰도 낮춤

이 민감도 분석을 분기마다 한 페이지 슬라이드로 정리해 회의에 띄우면, 어느 채널 결정이 데이터 기반이고 어느 것이 사전 가정 기반인지 투명해집니다.

분기 prior 업데이트 워크플로

베이지안 업데이트 루프

분기 시작: 작년 동분기 posterior로 prior 잡기
새 데이터로 fit
분기 끝: 새 posterior 저장
다음 분기에 이 posterior가 prior가 됨

이 루프가 1~2년 돌면 회사 자체 데이터에 기반한 prior가 형성되어, 외부 통념·업계 벤치마크에 대한 의존도가 줄어듭니다.

Lift 실험과 prior의 연결

분기에 lift 실험 1회를 운영하면 그 결과를 다음 분기 MMM prior에 직접 넣을 수 있습니다.

prior_{Meta ROI, q + 1} \sim N (μ = lift_{q}, σ = lift CI width)

이 흐름이 lift와 MMM을 자연스럽게 연결하는 다리이고, 두 측정의 결합이 MMM 결과의 의사결정 신뢰도를 한 단계 끌어올립니다.

함정 모음

prior 일관성 부족 — 분석가마다 다른 prior로 잡아 같은 데이터에 다른 결과
0 근처 prior — adstock decay나 ROI에 평균 0인 prior를 잡으면 모델이 그 채널을 거의 무시
음수 가능 prior — 채널 ROI prior에 Normal을 쓰면 일부 샘플이 음수가 되어 직관 위반
업데이트 누락 — 작년 prior를 그대로 매년 쓰면 시장 변화 반영 안 됨
과신 — 좁은 prior로 좋은 결과를 받았다고 다음 분기에도 그대로 쓰는 건 위험

마치며

prior는 Bayesian MMM의 절반입니다. 좋은 prior는 데이터 부족을 보완하고, 나쁜 prior는 데이터를 짓누릅니다. 매체 통념·작년 결과·lift 실험·도메인 인터뷰 네 출처를 prior로 변환하고, 분기마다 민감도 분석으로 검증하며, 작년 posterior로 다음 분기 prior를 만드는 루프가 돌면 모델은 점점 회사 데이터에 맞춰 정교해집니다.

다음 분기에 한 번만 시도해 볼 만한 것은 lift 실험 1회의 결과를 MMM prior로 직접 연결하는 흐름과, 그 prior가 들어간 모델과 안 들어간 모델의 채널 기여도 차이를 비교 슬라이드로 띄우는 일입니다. 두 측정의 결합 가치가 한 화면에 보입니다.

참고

Gelman et al., “Bayesian Data Analysis”: http://www.stat.columbia.edu/~gelman/book/
“Prior Choice Recommendations” (Stan): https://github.com/stan-dev/stan/wiki/Prior-Choice-Recommendations
Jin et al., “Bayesian Methods for Media Mix Modeling”: https://research.google/pubs/pub46001/
PyMC, “Prior and Posterior Predictive Checks”: https://www.pymc.io/projects/docs/en/stable/learn/core_notebooks/posterior_predictive.html
Recast, “How priors work in MMM”: https://getrecast.com/priors-in-mmm/

퍼포먼스 마케팅 카테고리의 다른 글