퍼널 드롭오프를 베이지안으로 — "전환율 2.1%인데 진짜?"에 답하기

“신규 광고 캠페인 첫 주 전환율 2.1%입니다.” — 회의에서 이런 한 줄을 자주 듣지만, 둘째 주에는 1.4%, 셋째 주에는 2.7%로 흔들리는 게 현실이에요. 작은 표본의 점추정은 거의 항상 거짓말을 합니다. 이 글은 베이지안의 가장 친숙한 입구인 Beta-Binomial 모델로 퍼널 전환율의 신뢰구간을 함께 보고하는 법을 다룹니다.

표본이 늘어날수록 좁아지는 Beta posterior 분포의 변화 시각화 — N=50일 때 신뢰구간은 [1%, 12%]만큼 넓다. N=2000이 되어야 비로소 [1.8%, 2.5%]로 좁아진다. 같은 2.1%여도 데이터의 양에 따라 의미가 다르다.

점추정 한 개의 거짓말

마케터·운영자 보고서에 가장 흔한 한 줄: “이번 주 전환율 2.1%입니다.”

이 한 줄에는 두 가지 정보가 빠져 있어요.

표본 크기: 25/1,200인지 2/95인지 250/12,000인지에 따라 의미가 천지차이
분산: “다음 주에도 비슷할까”의 답

같은 2.1%라도 표본이 적을수록 다음 주에는 1%로 떨어질 수도, 4%로 튈 수도 있어요. 점추정 한 개는 의사결정의 분산을 가립니다.

베이지안의 답은 단순합니다. 전환율을 숫자 1개가 아니라 분포로 본다. 표본이 적으면 분포가 넓고(불확실), 많으면 좁아집니다(확신). 이 분포를 보고서에 같이 가져가면 회의실에서 “2.1%인데 진짜?”라는 질문이 사라져요.

Beta-Binomial — 가장 쉬운 베이지안 모델

전환은 베르누이 시행입니다. 한 명이 사거나(1) 안 사거나(0). N명 중 k명이 샀을 때, “진짜 전환율 $θ$ “의 분포를 베이지안으로 추정하는 표준 방법이 Beta-Binomial이에요.

사전 — Beta(1, 1) = 무지의 균등분포

전환율에 대해 아무것도 모르는 상태를 표현하려면 Beta(1, 1)로 시작합니다. 이건 0~1 사이의 균등분포예요.

θ \sim Beta (α = 1, β = 1)

직관: “전환율이 0.1%일 수도, 50%일 수도, 99%일 수도 있다고 일단 생각하자”

데이터 — N명 중 k명 전환

k ∣ θ \sim Binomial (N, θ)

사후 — Beta는 켤레 사전이라 계산이 한 줄

Beta는 Binomial의 켤레 사전이라, 데이터를 보고 사후 분포가 그대로 또 Beta가 됩니다.

θ ∣ k, N \sim Beta (α + k, β + N - k)

직관: “성공 카운터에 k를 더하고, 실패 카운터에 N-k를 더한다.” 끝.

신규 캠페인 첫 주에 1,200명이 방문해 25명이 구매했다면, 사후 분포는 $Beta (26, 1176)$ . 이 분포의 통계량:

from scipy.stats import beta
post = beta(26, 1176)
post.mean()           # 0.0216 → 평균 전환율 2.16%
post.interval(0.95)   # (0.0143, 0.0307) → 95% 신뢰구간

마케터 보고서로 옮기면:

“신규 캠페인 첫 주 전환율 2.16% (95% CI: 1.4% - 3.1%)”

이 한 줄이 “2.1%입니다”보다 백 배 가치 있는 보고예요. 익원이 “다음 주는 어떻게 될 것 같아?”라고 물으면 “신뢰구간 안에서 움직일 가능성이 높습니다”라고 답할 수 있습니다.

표본이 적을수록 구간이 넓다

같은 “전환율 약 2%“라도 표본 크기에 따라 신뢰구간이 극적으로 다릅니다.

표본 N	전환 k	평균 추정	95% CI	의미
50	1	3.8%	[0.5%, 11.9%]	사실상 “모름”
200	4	2.5%	[0.8%, 5.4%]	폭이 평균 두 배 — 더 봐야 함
1,200	25	2.2%	[1.4%, 3.1%]	의사결정 가능
12,000	250	2.1%	[1.8%, 2.3%]	매우 신뢰 가능

CI 폭이 평균에 비해 얼마나 넓은지가 “이 숫자를 얼마나 믿을 수 있나”를 직접 알려줍니다.

약한 사전(weak informative prior) — 도메인 지식 살짝 끼얹기

Beta(1,1)은 “전혀 모름”이지만, 보통 마케터는 이 정도 캠페인은 전환율 1-3%일 거다 정도의 감은 있어요. 그 감을 사전에 반영하면 표본이 적을 때 추정이 훨씬 안정됩니다.

수학적으로는 사전의 $α, β$ 를 “본 적 없는 가상 표본”처럼 생각하면 됩니다. Beta(2, 98)은 “평균 2%로 100명 정도 본 적 있다”는 약한 확신이고, Beta(50, 2450)은 “평균 2%로 2,500명 본 적 있다”는 강한 확신.

같은 데이터(N=50, k=1)에 사전을 바꿔 끼우면 결과가 달라집니다.

사전	사후 평균	사후 95% CI
무지 Beta(1, 1)	3.8%	[0.5%, 11.9%]
약한 Beta(2, 98)	2.0%	[0.4%, 4.9%]
강한 Beta(50, 2450)	2.0%	[1.5%, 2.6%]

표본 50명, 전환 1명일 때 무지 사전은 “3.8% [0.5%, 11.9%]“라는 광기 어린 답을 주지만, 약한 사전은 “2.0% [0.4%, 4.9%]“로 차분해집니다. 도메인 지식을 사전으로 깐다 = 노이즈를 자연스럽게 흡수한다는 게 베이지안의 핵심.

두 광고 비교 — A가 진짜 B보다 나은가

A 광고와 B 광고를 똑같이 노출하고, 1주일 결과:

A: 800 노출, 24 클릭 (CTR 3.0%)
B: 850 노출, 22 클릭 (CTR 2.6%)

A가 더 좋아 보이지만, 분산을 모르고는 결정 못 합니다. 베이지안의 답은 사후 분포끼리 직접 비교.

A의 사후는 $Beta (25, 777)$ , B의 사후는 $Beta (23, 829)$ . 각각에서 샘플 5만 개씩 뽑아 비교하면(몬테카를로 시뮬레이션) 다음과 같은 답이 나옵니다.

지표	값	의미
$P (θ_{A} > θ_{B})$	68.3%	A가 더 좋을 확률
평균 차이 $θ_{A} - θ_{B}$	+0.44%p	미미한 차이
차이 95% CI	[-1.24%p, +2.11%p]	0을 가로지름

해석:

A가 B보다 더 좋을 확률은 68.3% (절대 확신 아님)
차이의 95% 신뢰구간이 0을 가로지름 → 두 광고가 통계적으로 동일할 가능성 무시 못 함

단계별 퍼널 — 어디서 가장 손실이 큰가

전환 퍼널: 광고 클릭 → 랜딩 페이지 → 상품 조회 → 장바구니 → 결제

각 단계의 통과율을 베이지안으로 보면, 표본 크기 차이까지 고려해서 “어디서 손실이 통계적으로 가장 크다”고 말할 수 있어요. 각 단계마다 Beta-Binomial을 따로 적용한 예시:

단계	진입 → 통과	통과율 (사후 평균)	95% CI
LP 도달	10,000 → 5,800	58.0%	[57.0%, 59.0%]
상품 조회	5,800 → 1,900	32.8%	[31.6%, 34.0%]
장바구니	1,900 → 420	22.1%	[20.3%, 24.1%]
결제	420 → 180	42.9%	[38.5%, 47.5%]

해석:

가장 큰 손실은 상품 조회 → 장바구니 (78%가 빠짐, CI 폭 좁음 → 확신)
결제 단계 통과율은 평균 43%, CI 폭 [38%, 48%]가 다른 단계보다 넓음 → 표본 적어 더 봐야 함

마케터는 보통 “제일 빠지는 단계 1개 = 개선 우선순위 1순위”인데, 베이지안 신뢰구간을 같이 보면 “확신 가능한 손실 구간 vs 더 측정해야 할 구간”을 구분할 수 있어요.

scipy.stats.beta 공식 문서 — 5줄짜리 베이지안의 출발점
Bayesian Methods for Hackers — Cameron Davidson-Pilon — 무료 책, 1장이 정확히 이 주제
Beta-Binomial Wikipedia — 수식 정리
VWO Bayesian A/B Testing 백서 — 실무 비교
Evan Miller — A/B Testing tools — 빈도주의 vs 베이지안 직접 계산기

퍼널 드롭오프를 베이지안으로 — "전환율 2.1%인데 진짜?"에 답하기

점추정 한 개의 거짓말

Beta-Binomial — 가장 쉬운 베이지안 모델

사전 — Beta(1, 1) = 무지의 균등분포

데이터 — N명 중 k명 전환

사후 — Beta는 켤레 사전이라 계산이 한 줄

표본이 적을수록 구간이 넓다

약한 사전(weak informative prior) — 도메인 지식 살짝 끼얹기

두 광고 비교 — A가 진짜 B보다 나은가

단계별 퍼널 — 어디서 가장 손실이 큰가

운영 팁 — 마케터가 자주 묻는 것들

1) 매일 신뢰구간을 다시 그려도 되나?

2) 사전을 강하게 깔면 신규 캠페인 효과가 안 보일 텐데

3) 클릭율, 전환율 외에도 이 방법이 통하나?

4) PyMC로 더 복잡하게 할 수도 있나?

자주 묻는 질문

Q1. Beta(1,1)이 정말 “전혀 모름”인가?

Q2. P-value 검정과 비교해서 베이지안이 항상 좋나?

Q3. 신뢰구간 폭이 좁은데 결과가 직관과 다르면?

마치며

참고

통계·ML 카테고리의 다른 글