tag
#ml-stats
10개의 글
통계·ML cold-start · thompson-sampling
Cold start 문제 — 신규 유저·신규 상품·신규 캠페인에 Thompson Sampling으로 답하는 법
신규 유저는 행동 이력이 없고, 신규 상품은 노출 이력이 없고, 신규 캠페인은 성과 이력이 없습니다. 정보 없이 추천·입찰·예산 분배를 어떻게 할까요. Thompson Sampling은 "탐색·활용 균형"의 베이지안 답을 가장 단순하게 줍니다. 마케팅 cold start 문제의 표준 도구.
통계·ML conformal-prediction · uncertainty
Conformal Prediction — 광고 예측에 "90% 확실" 보증을 분포 가정 없이 붙이기
CTR 0.034, LTV 12만원. 점추정 한 숫자만 던져진 예측은 위험합니다. Conformal Prediction은 분포 가정 없이 "이 예측이 90% 확률로 맞는 구간"을 붙여줍니다. 마케팅 예산 배분·소재 선별·LTV 추정에 그대로 쓸 수 있는 distribution-free 신뢰구간.
통계·ML cross-validation · k-fold
Cross-validation 기초 — 진짜 모델 성능을 측정하는 자리
학습 정확도 95% / 운영 정확도 60%의 함정은 검증 분할이 잘못됐기 때문입니다. cross-validation은 같은 데이터를 여러 번 쪼개 학습·평가해 진짜 일반화 능력을 측정합니다. K-fold·시계열 CV·운영 적용까지, ML 기초의 마지막 자리.
통계·ML did · causal-inference
Diff-in-Diff 인과추론 — 가격 인상·프로모션 종료의 진짜 효과를 분리하는 법
A/B 못 돌리는 마케팅 개입(가격 인상·프로모션 종료·UI 변경)의 진짜 효과를 어떻게 측정할까. 이중차분법(DiD)이 처리·대조군과 사전·사후 두 축을 동시에 빼주는 원리, 그리고 평행 추세 가정이 깨지면 무엇이 망가지는지.
통계·ML synthetic-did · causal-inference
Geo·시간 혼합 인과추론 — Synthetic DiD로 채널 incrementality 보정
DiD는 시간축, Geo-lift는 공간축. 둘 다 단축이라 가정이 종종 무너집니다. Synthetic DiD는 두 축을 한 추정량으로 묶어 평행 추세 가정의 부담을 덜어줍니다. TV+디지털 동시 변경 같은 다중 처리에서도 채널 incrementality를 안정적으로 잡는 도구.
통계·ML loss-function · gradient-descent
손실 함수와 학습 — 모델이 데이터에서 배우는 방식의 직관
"모델이 학습한다"의 안에서 무엇이 일어나는지 한 번도 안 들여다보면 머신러닝이 신비로 남습니다. 손실 함수·gradient descent의 한 줄 직관 — "오차를 어떻게 줄이나" — 만 잡으면 회귀·분류·딥러닝이 같은 원리로 보입니다.
통계·ML overfitting · regularization
Overfitting과 정규화 — 외운 모델 vs 일반화하는 모델
학습 데이터에서 99% 정확도, 새 데이터에서 60% — 가장 흔한 ML 함정 overfitting입니다. 모델이 데이터를 외운 자리. L1·L2·Dropout·Early Stopping 같은 정규화로 일반화하는 모델로 만드는 방법, 마케터·운영자가 알아야 할 핵심 직관.
통계·ML regression · classification
회귀와 분류 — 마케터가 가장 자주 만나는 두 머신러닝 모델 가족
"이 유저의 LTV는 얼마?" "이 유저가 이탈할까?" 두 질문이 머신러닝의 두 가족 — 회귀와 분류 — 의 출발점입니다. 무엇이 다르고 어디 쓰는지·어떻게 평가하는지를 한 글로 정리. ML 기초 체력의 첫 자리.
통계·ML stratified-ab · post-stratification
Stratified A/B와 post-stratification — 세그먼트로 분산을 깎는 또 다른 길
CUPED는 사전 데이터로 분산을 깎습니다. 그런데 사전 데이터가 없을 때는? Stratified A/B는 세그먼트로 표본을 나눠 비교하고, post-stratification은 사후에 세그먼트별로 보정합니다. 같은 표본·같은 결정에 더 짧은 실험 기간으로 닿는 또 다른 분산 축소 도구.
통계·ML switchback · experiment-design
Switchback experiment — 같은 유저에게 ON/OFF를 번갈아 적용하는 실험 설계
두 안을 동시에 보여주면 서로 영향을 주는 시장에서는 A/B가 깨집니다. 양면 시장·물류·실시간 입찰처럼 처리·대조군이 같은 풀을 공유할 때, switchback은 시간을 잘라 ON/OFF를 번갈아 적용합니다. 마케터가 알아야 할 또 다른 실험 설계.