Data Clean Room 입문 — Meta Advanced Analytics, Google ADH, AWS Clean Rooms 비교
쿠키 없는 시대의 attribution·오디언스 매칭 표준, Data Clean Room. privacy-preserving join의 본질부터 Meta Advanced Analytics·Google ADH·Amazon AMC·AWS Clean Rooms·Snowflake를 비교하고, k-익명성 제약과 실무 use case를 정리합니다.
“우리 고객 데이터랑 매체의 노출 데이터를 합쳐서 진짜 기여도를 보고 싶은데, 개인정보 때문에 서로 raw를 줄 수가 없어요.” 쿠키가 사라지고 ATT·GDPR이 조여 오면서, 마케팅 데이터의 가장 어려운 질문이 됐습니다. Data Clean Room은 이 딜레마의 업계 표준 답입니다. 두 회사가 서로의 raw 데이터를 보지 못한 채, 공통된 유저에 대한 집계 결과만 안전하게 주고받는 잠긴 방이죠. 이 글은 clean room의 본질, 주요 플랫폼 다섯 곳의 차이, 그리고 마케터가 실제로 무엇에 쓰는지를 정리합니다.
Clean Room이 왜 지금 필요한가
예전에는 서드파티 쿠키 하나로 매체 노출과 자사 전환을 이어 붙였습니다. 이제 그 다리가 끊겼습니다. 세 가지가 동시에 일어났기 때문입니다. iOS ATT로 기기 식별자가 막히고, 브라우저가 서드파티 쿠키를 없애고, GDPR·국내 개인정보보호법이 데이터 결합에 동의·최소수집을 요구합니다.
그래서 “raw 데이터를 서로 넘기는” 방식은 법적으로도 기술적으로도 불가능해졌습니다. 대신 필요한 건, 서로의 데이터를 보지 않고도 겹치는 부분만 계산하는 방법입니다. 그게 clean room입니다.
본질 — privacy-preserving join과 k-익명성
clean room의 심장은 “프라이버시를 지키는 조인(join)“입니다. 두 데이터셋을 공통 키(이메일 해시, 전화번호 해시 등)로 매칭하되, 개별 유저가 식별되지 않게 만듭니다.
핵심 안전장치는 k-익명성(k-anonymity)입니다. 어떤 집계 결과든 최소 k명 이상이 묶여야만 출력됩니다. 예를 들어 “서울 강남구 25세 여성, 어제 우리 광고 본 사람”이 3명뿐이면 그 결과는 막힙니다. 개인이 역추적될 수 있기 때문입니다.
여기에 차등 프라이버시(differential privacy) 노이즈를 더해, 한 사람이 데이터에 있고 없고가 결과를 거의 바꾸지 못하게 만들기도 합니다. 그래서 clean room의 결과는 늘 “집계”이고, 절대 “유저 한 명의 행”이 아닙니다.
플랫폼 Clean Room — Meta, Google, Amazon
매체들이 각자 자기 데이터를 중심으로 한 clean room을 운영합니다. 공통점은 “매체가 가진 노출·클릭 데이터 + 광고주의 자사 데이터”를 그 매체 환경 안에서 결합한다는 것입니다.
Meta Advanced Analytics는 Meta의 노출·전환 데이터와 광고주의 자사 데이터를 결합해, 플랫폼 대시보드보다 깊은 기여도·여정 분석을 제공합니다. 대형 광고주 중심으로 열립니다.
Google Ads Data Hub(ADH)는 Google·YouTube 광고의 이벤트 레벨 데이터를 BigQuery 위에서 SQL로 분석하게 해 줍니다. 단, 출력은 집계만 되고 행 단위 추출은 막혀 있습니다. 가장 SQL 자유도가 높은 편입니다.
Amazon Marketing Cloud(AMC)는 Amazon 광고·구매 신호를 SQL로 분석합니다. 리테일 미디어 맥락에서 구매 데이터까지 닿는다는 게 강점입니다.
인프라 Clean Room — AWS, Snowflake
매체가 아니라 데이터 인프라 사업자가 제공하는 중립 clean room도 있습니다. 특정 매체에 묶이지 않고, 광고주와 파트너(또는 두 브랜드)가 자기들끼리 데이터를 결합할 때 씁니다.
AWS Clean Rooms는 여러 당사자가 각자의 S3·데이터를 AWS 안에서 결합하되, 미리 정한 분석 규칙(allowed queries, 출력 제약)만 실행하게 합니다. Snowflake Data Clean Room은 Snowflake에 이미 데이터가 있는 회사들이 데이터를 복제·이동 없이 공유 분석하게 해 줍니다.
| Clean Room | 데이터 중심 | 분석 방식 | 매칭 키 | 비고 |
|---|---|---|---|---|
| Meta Advanced Analytics | Meta 광고 | 매체 제공 도구 | 자사 PII 해시 | 대형 광고주 |
| Google ADH | Google·YouTube | BigQuery SQL | Google 식별자 | SQL 자유도 높음 |
| Amazon AMC | Amazon 광고·구매 | SQL | Amazon 식별자 | 리테일 미디어 |
| AWS Clean Rooms | 중립(당사자) | 규칙 기반 쿼리 | 합의 키 | 매체 비종속 |
| Snowflake | 중립(당사자) | 공유 분석 | 합의 키 | 이동 없는 공유 |
분석 가능한 SQL의 제약
clean room에서 SQL을 짤 수 있다고 해서 일반 데이터 웨어하우스처럼 자유로운 건 아닙니다. 제약을 모르면 “왜 결과가 안 나오지?”로 시간을 버립니다.
- 집계만 출력: 개별 유저 행을 SELECT 할 수 없습니다. 늘 GROUP BY 뒤의 합계·평균만 나옵니다
- 최소 인원 임계: 결과 그룹이 k명 미만이면 그 행은 자동으로 가려지거나 노이즈가 섞입니다
- 허용된 함수·조인만: 플랫폼이 미리 승인한 연산만 가능하고, 임의 UDF나 외부 반출은 막힙니다
- 쿼리 횟수·결과 재조합 제한: 작은 그룹을 여러 번 쪼개 역추적하는 걸 막기 위해 차분 공격 방어가 걸립니다
1st party data 매칭률 올리기
clean room의 효과는 결국 얼마나 많은 유저가 양쪽에서 매칭되느냐에 달려 있습니다. 자사 데이터의 품질이 곧 분석의 해상도입니다.
매칭률을 올리는 핵심은 매칭 키의 품질입니다. 이메일·전화번호를 정규화(소문자·공백 제거·국가코드 통일)한 뒤 해시하고, 가능한 여러 키를 함께 제출합니다. 이건 Meta CAPI의 EMQ(Event Match Quality) 점수를 올리는 작업과 같은 원리입니다. 동의를 받은 1st party 데이터를 풍부하게 쌓아 둘수록 매칭률이 오릅니다.
실무 use case — 마케터는 이걸로 뭘 하나
clean room이 추상적으로 들린다면, 실제로 답할 수 있는 질문들로 보면 명확해집니다.
- Incrementality 측정: 매체 노출 데이터와 자사 매출을 결합해, 광고를 본 사람과 안 본 사람의 실제 매출 차이를 봅니다
- Audience overlap: 두 매체(또는 두 브랜드)의 도달이 얼마나 겹치는지 봐서 예산 중복을 줄입니다
- MMM 입력 데이터: clean room에서 나온 채널별 집계 기여도를 marketing mix model의 입력으로 씁니다
- Frequency·reach 분석: 크로스 채널에서 한 사람이 광고를 몇 번 봤는지(중복 제거된 빈도)를 집계로 봅니다
마치며
Data Clean Room은 “프라이버시 때문에 데이터를 못 합친다”와 “그래도 진짜 기여도를 알아야 한다” 사이의 타협점입니다. raw는 잠그고 집계만 주고받는 구조라서, 쿠키 이후 시대에 attribution·오디언스 분석을 합법적으로 이어 갈 수 있게 해 줍니다.
처음 접근한다면 두 가지만 기억하세요. 첫째, clean room은 만능이 아니라 “집계만 나오는 제약된 분석 공간”이라는 것. 둘째, 그 효과는 결국 동의받은 1st party 데이터의 양과 품질에 달려 있다는 것. 좋은 자사 데이터 없이는 어떤 clean room도 빈 방입니다.
참고
프라이버시·컴플라이언스 카테고리의 다른 글
전체 보기 →-
2026·05·16
iOS ATT·GDPR·국내 PIPA — 마케터가 알아야 할 3대 프라이버시 규제
iOS App Tracking Transparency, EU GDPR, 한국 개인정보보호법(PIPA). 3가지 규제가 마케터의 measurement·targeting·동의 흐름에 미치는 영향을 한 글로 정리합니다.
-
2026·05·09
EU DMA가 walled garden을 어떻게 흔드나 — 마케터 영향 정리
EU의 Digital Markets Act(DMA)가 Meta·Google·Apple의 walled garden을 강제 개방시키고 있습니다. 광고주 데이터·측정·광고 제품 관점에서 마케터가 알아야 할 변화 정리.
-
2026·05·08
데이터 클린룸 — Meta·Google과 안전하게 데이터 매칭하는 법
쿠키·IDFA가 끊긴 시대에 자사 1st-party 데이터와 광고 플랫폼 데이터를 매칭하는 표준 방식이 데이터 클린룸입니다. AWS Clean Rooms·Google Ads Data Hub·Meta Advanced Analytics의 차이와 마케터가 매칭으로 얻을 수 있는 정보를 정리합니다.
-
2026·05·07
Privacy Sandbox — 쿠키 종료 이후 브라우저단 광고 타깃팅, 마케터가 알아야 할 5가지
서드파티 쿠키 종료 이후, 광고 타깃팅은 어디로 가나. Privacy Sandbox는 광고 식별을 광고주 서버에서 브라우저 안으로 옮기는 구글의 답입니다. Topics·Protected Audience·Attribution Reporting 3축이 무엇이고, 마케터가 캠페인·KPI를 어떻게 다시 설계해야 하는지.