huny.log

기술 포스트 · 통계·ML

Switchback experiment — 같은 유저에게 ON/OFF를 번갈아 적용하는 실험 설계

두 안을 동시에 보여주면 서로 영향을 주는 시장에서는 A/B가 깨집니다. 양면 시장·물류·실시간 입찰처럼 처리·대조군이 같은 풀을 공유할 때, switchback은 시간을 잘라 ON/OFF를 번갈아 적용합니다. 마케터가 알아야 할 또 다른 실험 설계.

“광고 입찰 알고리즘 두 안을 A/B로 비교하려는데, 처리군 입찰이 대조군 노출에도 영향을 줘요.” 이런 상황에서 일반 A/B는 깨집니다. 처리·대조군이 같은 광고 슬롯·같은 매체 풀을 두고 경쟁하기 때문에 서로의 결과를 흔듭니다. Switchback은 이 문제를 시간을 잘라 푸는 실험 설계입니다. 같은 유저·같은 시장에 시간 단위로 ON/OFF를 번갈아 적용하면 처리·대조 간 간섭이 사라집니다. 마케터가 알아야 할 세 번째 실험 도구를 정리합니다.

1. SUTVA 위반 — 일반 A/B가 깨지는 자리

A/B 테스트의 가장 중요한 가정 중 하나는 SUTVA(Stable Unit Treatment Value Assumption)입니다. 한 줄 정의는 다음입니다.

한 유저의 처리·대조 결과는 다른 유저의 처리·대조 배정에 영향받지 않는다.

대부분의 마케팅 실험은 이 가정 위에서 작동합니다. 광고 카피 A/B는 한 유저가 보는 카피가 다른 유저에게 영향 없으므로 SUTVA 충족. UI 변경 A/B도 마찬가지입니다.

문제는 다음 자리들입니다.

  • 광고 입찰 — 처리군 입찰가 변화가 같은 슬롯의 대조군 노출에 영향
  • 실시간 매칭 — 라이드 헤일링·배달의 처리군 매칭이 대조군 대기 시간에 영향
  • 리쿠리 광고 — 처리군이 본 광고가 같은 가구 안 대조군의 광고 인지에 영향
  • 가격 실험 — 처리군 가격이 같은 카테고리 대조군 매출에 영향
  • 예산 캡 캠페인 — 처리군 노출이 같은 캠페인의 대조군 잔여 예산을 잡아먹음

이 자리들은 처리와 대조군이 같은 풀을 공유합니다. 일반 A/B로 비교하면 효과가 0에 가까워지거나 반대 방향으로 보고됩니다. SUTVA가 깨졌기 때문입니다.

시간을 슬롯으로 잘라 ON/OFF를 번갈아 적용하는 다이어그램
유저 단위가 아니라 시간 단위로 처리·대조를 바꾼다. 같은 시장 안의 모든 유저가 한 시간 슬롯에서는 같은 처리, 다음 슬롯에서는 같은 대조를 받는다.

2. Switchback의 한 줄 아이디어

switchback의 핵심은 한 줄입니다.

처리·대조를 유저 단위가 아니라 시간 단위로 바꾼다.

예를 들어 30분 단위로 잘라 홀수 슬롯은 처리, 짝수 슬롯은 대조. 같은 시장 안 모든 유저가 같은 슬롯에서는 같은 처리를 받습니다. 처리·대조 간 자원 경쟁이 사라집니다.

시간 슬롯시장모든 유저
09:00~09:30처리 (T)새 알고리즘
09:30~10:00대조 (C)기존 알고리즘
10:00~10:30처리 (T)새 알고리즘
10:30~11:00대조 (C)기존 알고리즘

이 데이터에서 처리군 슬롯의 평균 메트릭과 대조군 슬롯의 평균 메트릭을 비교합니다. 시간 단위 단위로 SUTVA가 풀려 효과가 깨끗하게 추정됩니다.

수식으로 적으면 단순합니다.

여기서 는 시간 슬롯 의 처리 표시, ·는 처리·대조 슬롯의 평균 메트릭입니다.

3. 슬롯 길이를 어떻게 정하나 — carryover의 함정

switchback의 가장 중요한 운영 결정은 슬롯 길이입니다. 짧으면 carryover effect가 강하고, 길면 표본이 부족합니다.

3-1. carryover effect

처리 슬롯 동안 일어난 일이 다음 대조 슬롯에 영향을 남기는 현상입니다.

  • 광고 입찰: 처리 슬롯에서 입찰을 더 세게 부른 결과가 대조 슬롯의 매체 풀 상태에 영향
  • 라이드 헤일링: 처리 슬롯에서 매칭된 드라이버가 대조 슬롯에서도 그 영향에 있음
  • CRM: 처리 슬롯에 보낸 푸시가 대조 슬롯의 행동에 영향

슬롯이 너무 짧으면 carryover로 처리·대조의 차이가 깎입니다. 운영에서는 도메인의 carryover 시간 척도(보통 운영 사이클의 1~2배)를 슬롯 길이로 잡는 게 표준입니다.

3-2. 표본 크기

슬롯이 너무 길면 같은 기간 안에 슬롯 수가 적어 검출력이 떨어집니다. 표본 단위가 유저가 아니라 슬롯이기 때문입니다. 일반적인 가이드라인:

  • 광고 입찰·실시간 매칭: 30분~1시간 슬롯, 2주 운영
  • 가격 실험·예산 캡: 1일 슬롯, 4~6주 운영
  • CRM·푸시: 6시간 슬롯, 2~3주 운영

4. 처리·대조 슬롯 배치 — 무작위 vs 격자

슬롯에 처리·대조를 어떻게 배정하느냐도 결정 요소입니다. 두 가지 패턴이 있습니다.

  • 무작위 배정 — 각 슬롯을 50% 확률로 처리·대조. 단순, 시간 추세 흡수 약함
  • 격자(alternating) 배정 — T-C-T-C 순서. 시간 추세 흡수 강함, 카운터 가능성 약점

운영 표준은 보통 격자 배정에 약간의 무작위성을 더한 형태입니다. 매주 시작 슬롯의 T/C를 무작위로 정하고 그 안에서 격자로 가는 식. 시간 추세를 떼어내면서도 운영자가 패턴을 외우지 못하게 합니다.

회귀로 분석할 때는 시간 효과를 명시적으로 보정합니다.

import statsmodels.formula.api as smf
# df: ['slot_id', 'hour', 'day_of_week', 'treated', 'y']
model = smf.ols('y ~ treated + C(hour) + C(day_of_week)', data=df).fit(
cov_type='HAC', cov_kwds={'maxlags': 24}
)
print(model.params['treated'], model.bse['treated'])

이게 본문의 유일한 코드입니다. 시간(시간대·요일) 효과를 보정하고 자기상관을 고려한 HAC 표준오차로 처리 효과를 뽑습니다.

5. Switchback이 빛나는 마케팅 자리

5-1. 광고 입찰 알고리즘 변경

새 입찰 알고리즘을 일반 A/B로 50:50 배정하면, 처리군 입찰이 대조군이 받을 광고 슬롯을 잡아먹습니다. 처리군 효과가 대조군의 손실로 이어져 차이가 부풀려 보입니다. 같은 시간에는 같은 알고리즘만 굴리는 switchback이 깨끗한 비교를 만듭니다.

5-2. 실시간 예산 분배

캠페인 예산을 시간대별로 분배하는 두 안 비교. 일반 A/B로 50:50 분배하면 처리군 분배가 대조군의 예산 잔여에 영향을 주어 결과가 흔들립니다. switchback으로 시간을 잘라 굴리면 같은 시장에 같은 분배 방식이 적용됩니다.

5-3. 리쿠리 광고 노출 빈도

같은 가구 안 두 명에게 다른 광고를 보여주면 한 명이 본 광고가 다른 사람의 광고 인지에 영향을 줍니다. switchback으로 가구 단위·시간 슬롯 단위 동시에 적용하면 리쿠리 효과 측정이 깔끔해집니다.

6. Switchback이 깨질 때 — 흔한 함정 3가지

6-1. 슬롯 길이가 carryover보다 짧다

가장 흔한 함정. 30분 슬롯에서 광고 입찰의 carryover가 1시간이면, 처리 슬롯의 효과가 다음 대조 슬롯까지 끌려갑니다. 결과적으로 처리·대조 차이가 깎입니다. carryover 시간을 모르면 사전 시뮬레이션이나 도메인 expert와 의논해 슬롯 길이를 보수적으로 길게 잡으세요.

6-2. 시간 추세가 처리·대조에 비대칭으로 영향

평일 오전에는 처리, 주말 저녁에는 대조 같은 비대칭 배치는 시간 효과가 처리 효과로 흘러 들어갑니다. 무작위 + 격자 결합 배정으로 시간대별 처리·대조 비중을 맞추세요. 회귀 분석에서 시간 더미를 명시적으로 추가해야 합니다.

6-3. 마켓·시장이 너무 잘다

switchback의 표본 단위는 슬롯입니다. 같은 슬롯의 한 마켓 한 시장에서 표본이 너무 작으면 슬롯별 메트릭이 노이즈를 탑니다. 마켓을 묶어 더 큰 풀을 만들거나, 슬롯 길이를 늘려 슬롯당 데이터를 키워야 합니다.

7. 마치며 — 마케터의 실험 도구상자에 들어가는 세 번째 도구

마케터의 실험 도구상자에는 이제 세 종류의 도구가 있습니다.

  • 일반 A/B — 유저 단위 무작위, SUTVA 충족
  • DiD·Geo-lift·Synthetic DiD — A/B가 안 되는 시장·시간 인과추론
  • Switchback — SUTVA가 깨진 자원 공유 시장의 실험 설계

세 도구의 공통점은 “단순 A/B로 풀 수 없는 자리에서 인과를 분리하는” 노력입니다. 자리에 따라 도구가 다르고, 도구 선택의 단서는 처리·대조 사이의 간섭 구조입니다.

다음 글에서는 마케팅의 또 다른 통계 함정, FDR과 multiple testing correction을 다룹니다. 메트릭 10개 보면 1개는 우연히 유의한 자리에서, 거짓 양성을 어떻게 통제하느냐의 문제입니다.

참고

통계·ML 카테고리의 다른 글

전체 보기 →