B2B Lead Scoring 설계 — fit과 intent의 2축 모델, 그리고 ML

웨비나가 끝나고 리드 500개가 들어왔습니다. 영업팀은 열 명이고, 한 명이 하루에 의미 있게 따라붙을 수 있는 리드는 많아야 십수 개. 그럼 누구부터 전화해야 할까요. “들어온 순서대로”가 답이 아니라는 건 모두 알지만, 많은 조직의 실제 운영이 그렇습니다. Lead scoring은 이 우선순위 문제를 점수로 푸는 B2B 마케팅의 표준 장치입니다. 이 글은 점수표를 어떻게 설계하고, 언제 ML로 넘어가며, 영업과 무엇을 합의해야 하는지를 다룹니다.

스코어링이 풀려는 문제는 예측이 아니라 배분

흔한 오해부터 정리하면, lead scoring의 1차 목적은 전환 예측의 정확도가 아닙니다. 한정된 영업 시간을 어디에 쓸지 정하는 배분 규칙입니다. 예측이 다소 부정확해도 영업이 신뢰하고 일관되게 따르는 점수가, 정확하지만 아무도 안 쓰는 모델보다 매출에 기여합니다.

이 관점이 설계를 단순하게 만듭니다. 점수의 성공 기준은 AUC가 아니라 “상위 점수 구간에 영업 시간을 몰았더니 같은 인력으로 파이프라인이 늘었는가”입니다. 그래서 출발점은 모델링이 아니라, 지금 영업이 어떤 리드에서 시간을 낭비하고 있는지 보는 일입니다.

두 개의 축, fit과 intent는 다른 질문이다

스코어링 설계의 가장 흔한 실패는 서로 다른 두 질문을 한 점수에 뭉개 넣는 겁니다. 두 질문은 이렇게 다릅니다.

Fit은 “이 회사·사람이 우리 고객이 될 수 있는 프로필인가”를 묻습니다. 업종, 회사 규모, 국가, 담당자의 직급과 역할 같은 firmographic 정보로 판단하고, 시간이 지나도 거의 변하지 않습니다.

Intent는 “지금 살 마음이 있어 보이는가”를 묻습니다. 가격 페이지 방문, 데모 신청, 비교 자료 다운로드 같은 행동 신호로 판단하고, 며칠 만에 식어버립니다.

두 축을 분리하면 리드가 네 칸으로 나뉘고, 칸마다 해야 할 일이 달라집니다.

	intent 높음	intent 낮음
fit 높음	즉시 영업 콜 (오늘)	너처링 트랙 (콘텐츠·웨비나)
fit 낮음	셀프서브 유도 또는 정중한 디스퀄	손대지 않음

이 매트릭스가 주는 가장 큰 가치는 우상단이 아니라 좌하단입니다. fit 낮고 intent 높은 리드, 예컨대 학생이 데모를 신청한 경우는 행동만 보면 뜨거운 리드처럼 보입니다. 한 점수로 합산하면 영업이 여기에 시간을 씁니다. 축을 분리해야 이 함정이 보입니다.

fit과 intent 두 축으로 나뉜 2x2 리드 매트릭스와 각 칸의 대응 전략을 보여주는 인포그래픽 — fit과 intent를 한 점수로 합치는 순간, '학생의 데모 신청'과 '타깃 기업 임원의 데모 신청'이 같은 점수가 된다.

규칙 기반 설계, 시시해 보여도 여기부터

첫 버전은 포인트 테이블이면 충분합니다. HubSpot이나 Marketo 같은 마케팅 자동화 도구의 기본 기능이 정확히 이 방식이고요. 대략 이런 모양입니다.

신호	점수	축
타깃 업종 + 직원 50명 이상	+20	fit
담당자 직급이 팀장 이상	+15	fit
무료 이메일 도메인 (gmail 등)	-10	fit
데모 신청	+30	intent
가격 페이지 2회 이상 방문	+15	intent
뉴스레터 오픈	+2	intent
채용 공고 페이지만 방문	-15	intent

점수 값 자체에 과학은 없습니다. 처음엔 영업·마케팅이 모여 “데모 신청이 이메일 오픈보다 얼마나 중요한가”를 합의한 추정치로 시작하고, 분기마다 실제 전환 데이터와 대조해 보정합니다. 중요한 건 정밀함이 아니라 모두가 점수의 근거를 설명할 수 있다는 것입니다. 영업이 “왜 이 리드가 80점이야?”라고 물었을 때 답할 수 없는 점수는 버려집니다.

intent는 부패한다, 시간 감쇠 설계

행동 신호의 가치는 시간이 지나면 사라집니다. 3주 전의 가격 페이지 방문은 지금의 구매 의사를 거의 말해주지 않습니다. 그래서 intent 점수에는 감쇠를 겁니다. 반감기 방식이 다루기 쉽습니다.

S (t) = S_{0} \cdot 2^{- Δ t / h}

$S_{0}$ 는 행동 시점의 점수, $Δ t$ 는 경과일, $h$ 는 반감기입니다. 반감기를 7일로 두면 데모 신청의 +30점은 일주일 뒤 +15점, 2주 뒤 +7.5점이 됩니다. 보통 가격 문의·데모처럼 강한 신호는 반감기를 길게(14일 안팎), 페이지 방문 같은 약한 신호는 짧게(수일) 잡는 식으로 신호 강도와 반감기를 함께 설계합니다.

도구가 연속 감쇠를 지원하지 않으면 계단식으로 흉내 내면 됩니다. “행동 후 14일 지나면 점수 절반, 30일 지나면 소멸” 같은 규칙 두 줄로요. fit 점수에는 감쇠를 걸지 않습니다. 회사 규모는 부패하지 않으니까요.

ML로 넘어가는 시점과 넘어가서 생기는 일

규칙 기반을 운영하다 보면 두 가지 고통이 쌓입니다. 신호가 수십 개로 늘면서 점수표 유지보수가 일이 되고, “이 조합이면 점수는 낮은데 묘하게 잘 전환되더라” 같은 상호작용을 규칙이 못 잡습니다. 이때가 ML 검토 시점입니다. 전제 조건은 데이터입니다. 전환(opportunity 생성 또는 수주) 라벨이 최소 수백 건은 쌓여 있어야 학습이 의미를 가집니다.

모델 자체는 로지스틱 회귀나 gradient boosting이면 충분하고, 출력이 “전환 확률 23%“처럼 나오는 게 규칙 점수와의 가장 큰 차이입니다. 확률은 기대값 계산으로 이어져서, 리드별 예상 가치(전환 확률 × 예상 계약 규모)로 우선순위를 정하는 다음 단계가 열립니다.

대신 ML 특유의 함정이 따라옵니다.

라벨 누수: “영업 미팅 횟수” 같은 피처는 전환의 원인이 아니라 결과입니다. 미래 정보가 피처에 새면 모델 성능은 화려한데 실전에서 무용합니다.
자기실현 편향: 영업이 고점수 리드만 따라붙으면, 전환 라벨 자체가 “점수가 높았던 리드”에 몰립니다. 모델이 자기 과거를 정답이라 배우는 구조라, 주기적으로 저점수 리드 일부를 무작위로 영업에 흘려 검증하는 장치가 필요합니다.
설명 불가능: “왜 이 리드가 1순위냐”에 답 못 하면 영업이 안 씁니다. 피처 기여도를 같이 보여주는 운영(SHAP 값이든, 상위 신호 3개 표시든)이 사실상 필수입니다.

규칙에서 ML로 가는 건 업그레이드라기보다 유지보수 대상이 점수표에서 데이터 파이프라인과 모델로 바뀌는 트레이드입니다. 팀에 그 운영 체력이 없다면 잘 보정된 규칙 기반이 더 나은 선택일 때도 많습니다.

점수는 통계가 아니라 계약, 영업과 합의할 것들

스코어링 프로젝트가 죽는 자리는 수학이 아니라 핸드오프입니다. 합의 없이 마케팅이 일방적으로 점수를 만들면, 영업은 “마케팅이 보낸 리드는 쓰레기”라는 오래된 명제를 재확인할 뿐입니다. 최소한 셋을 문서로 합의해야 합니다.

첫째, threshold와 호칭. 몇 점부터 MQL인지, 영업이 수락하면 SAL, 영업이 기회로 판단하면 SQL이라는 단계 정의. 둘째, SLA. MQL이 넘어가면 영업은 몇 시간 안에 첫 콘택트를 하는지. 점수가 아무리 정확해도 48시간 묵힌 intent는 식어 있습니다. 셋째, 반려 사유의 회수. 영업이 리드를 거절할 때 사유(타이밍/예산/fit 아님)를 한 번의 클릭으로 남기게 하고, 그 데이터가 다음 분기 점수 보정의 입력이 됩니다. 이 피드백 루프가 없는 스코어링은 보정 없이 늙어갑니다.

운영 디테일 몇 가지

실시간 vs 배치. 데모 신청처럼 강한 신호는 실시간으로 점수에 반영돼 알림까지 가야 하고(신청 5분 뒤의 전화와 다음날의 전화는 연결률이 다릅니다), 나머지 행동 점수와 감쇠는 일 배치면 충분합니다. 전부 실시간으로 만들 이유는 없습니다.

점수 분포 모니터링. 사이트 개편이나 캠페인 변화로 행동 신호의 양이 바뀌면 점수 분포가 통째로 밀립니다. MQL 수가 갑자기 늘었다면 리드 품질이 좋아진 게 아니라 점수 인플레이션일 가능성부터 확인하세요. 주간 점수 분포 히스토그램 하나가 이 사고를 잡습니다.

ABM과의 관계. 타깃 계정 리스트가 명확한 ABM 조직이라면 fit 축은 사실상 “리스트에 있는가”로 치환되고, 스코어링의 무게는 intent 축과 계정 단위 합산(같은 회사에서 세 명이 동시에 방문하면 강한 신호)으로 옮겨갑니다. 계정 기반 운영의 큰 그림은 B2B ABM 입문에서 다뤘습니다.

자주 빠지는 함정

가장 흔한 건 약한 신호의 과대 가중입니다. 이메일 오픈은 신호 축에도 못 끼는 시대입니다(Apple의 프라이버시 보호 기능이 오픈을 자동 발생시킨 지 오래됐습니다). 오픈 점수를 쌓아 MQL이 되는 구조라면 지금 바로 손보세요.

점수의 단일화도 다시 강조할 만합니다. fit과 intent를 합산한 단일 점수는 운영이 편해 보이지만, 좌하단 함정(낮은 fit, 높은 intent)을 도로 불러옵니다. 합쳐서 보여주더라도 내부적으로는 두 축을 따로 유지해야 합니다.

마지막으로 검증 없는 점수. 분기에 한 번, 점수 구간별 실제 전환율 표를 만들어 보세요. 80점대가 60점대보다 전환율이 낮다면 점수는 장식입니다. 이 표 하나가 스코어링 운영의 건강검진입니다.

마치며

Lead scoring의 설계 순서를 한 줄로 압축하면 이렇습니다. fit과 intent를 분리하고, 설명 가능한 규칙으로 시작하고, intent에 감쇠를 걸고, 영업과 threshold·SLA·반려 사유를 계약하고, 분기마다 전환율 표로 검증한다. ML은 이 운영이 자리잡은 뒤에 검토해도 늦지 않습니다.

점수는 결국 영업 시간이라는 가장 비싼 자원의 배분 규칙입니다. 모델의 정교함보다 조직이 그 규칙을 믿고 따르는지가 성패를 가릅니다.