자가 개선 AI 루프(Self-Improving AI Loop)를 통해 SDR의 First-Touch 볼륨을 139% 증가시킨 방법

대부분의 아웃바운드 머신(Outbound machines)은 멍청한 루프(Dumb loops)입니다. SDR(Sales Development Representative)이 이메일을 보내면, 일부는 열람되고, 몇몇은 답장이 오며, 주말이 되면 영업 관리자가 어떻게 진행되었는지 묻습니다. SDR은 괜찮다거나 괜찮지 않다고 답합니다. 조정은 직관(Gut feel)에 기반하여 이루어집니다. 무엇이 구체적으로 변했고 왜 변했는지 측정하는 사람이 아무도 없기 때문에, 다음 주에도 똑같은 실수가 반복됩니다.

이런 일이 발생하는 이유는 영업 리더들이 데이터에 관심이 없어서가 아닙니다. 데이터 수집, 필터링, 주간 비교(Week-over-week comparison), 그리고 학습(Learning) 과정 모두가 엄격하게 수행하기에는 시간이 부족한 수동 작업(Manual work)을 필요로 하기 때문입니다. 그래서 실행되지 않습니다. 루프는 멍청한 상태로 남게 됩니다.

지난 두 달 동안 저는 스스로 학습하는 버전의 루프를 구축해 왔습니다. 이는 단일 에이전트(Agent)가 아니라, 순차적으로 작동하는 두 개의 에이전트입니다. 하나는 조사(Research)와 잠재 고객 발굴(Prospecting)의 품질을 담당합니다. 다른 하나는 발생한 일을 검토하고, 무엇이 변했는지 측정하며, 팀이 교훈을 적용하고 있는지 확인합니다. 이들이 함께 협력하여 이제는 수치로 나타낼 수 있는 결과를 만들어냈습니다.

First-touch 아웃바운드 볼륨은 영업일 기준 하루 9.7통의 이메일에서 23.2통으로 증가하여 139%의 성장률을 기록했습니다. 반송률(Bounce rate)은 2.76%(우리의 경고 임계값 이상)에서 1.18%로 떨어졌습니다. 우리 SDR은 단일한 일반적 시퀀스(Generic sequence)를 실행하던 것에서 7개의 개인화된 진입점 변형(Personalised entry-point variants)을 실행하는 것으로 변화했습니다. 그리고 새로운 벤치마크(Benchmark)를 기준으로 측정을 시작한 이후 처음으로, 일일 이메일 목표와 도달한 고유 기업 수(Unique-companies-reached) 목표를 동일 세션 내에서 모두 달성하는 'GREEN' 데이를 기록했습니다.

이 글은 그것이 어떻게 가능했는지, 시스템이 실제로 어떻게 구성되어 있는지, 그리고 이를 작동시키기 위해 무엇이 필요했는지에 대한 이야기입니다.

2개 에이전트 시스템

아웃바운드 머신에는 두 개의 구동 부품이 있습니다.

첫 번째는 아웃바운드 캠페인 에이전트 (Outbound Campaign Agent)입니다. 이는 잠재 고객 발굴 (prospecting) 추진 전에 실행됩니다. 이 에이전트는 각 잠재 고객을 조사하고, 구매 의도 신호 (buyer intent signals)를 식별하며, 휴면 및 재참여 기회에 대한 CRM 데이터를 추출하고, 각 연락처에 맞춤화된 오프닝 각도 (opening angles)가 포함된 순위가 매겨진 잠재 고객 리스트를 생성합니다. SDR이 시퀀스 (sequence)를 시작하기 위해 앉았을 때, 그들은 콜드 리스트 (cold list)에 일반적인 이메일을 쓰는 것이 아니라, 에이전트가 찾아낸 내용을 바탕으로 정밀하게 조정된 아웃리치 (outreach)를 보내게 됩니다. 조사 (research)의 품질은 첫 문장의 품질로 직결되며, 이는 다시 회신율 (reply rate)로 직결됩니다.

두 번째는 SDR 디브리프 에이전트 (SDR Debrief Agent)입니다. 이는 매주 금요일에 실행됩니다. 지난주에 어떤 일이 일어났는지 — 어떤 이메일이 발송되었는지, 어떤 시퀀스에 속해 있었는지, 각 연락처가 어떤 터치 단계 (touch stage)에 있었는지, 참여 지표 (engagement metrics)가 어떻게 변했는지 — 를 검토하고, 주간 팀 디브리프 (debrief) 전에 구조화된 보고서를 생성합니다. 또한 학습 루프 (learning loop)를 유지합니다. 특정 패턴이 플레이북 규칙 (playbook rule)이 될 만큼 충분히 지속 가능하다고 증명되면, 에이전트는 SDR들이 실제로 이를 매주 적용하고 있는지 추적합니다.

어느 에이전트도 단독으로는 우리가 목격한 결과를 만들어내지 못합니다. 캠페인 에이전트는 입력 품질을 개선합니다. 디브리프 에이전트는 학습 루프를 완성합니다. 이 둘의 결합이 복리 효과를 만들어냅니다.

내가 디브리프 에이전트를 구축한 시점의 이유

솔직한 이유는 압박감이었습니다. 우리의 인바운드 파이프라인 (inbound pipeline) 성과가 저조했고, 우리는 아웃바운드가 더 강력하게 작동하도록 만들기로 결정했습니다. 실제로 무슨 일이 일어나고 있는지 면밀히 살펴본 결과, 각 SDR이 자신만의 방식으로 각자의 시퀀스를 운영하고 있으며, 구조 없이 변경 사항을 적용하고 있고, 한 캠페인에서 얻은 교훈이 다음 캠페인으로 이어지지 않고 있다는 것을 발견했습니다.

우리에겐 가공되지 않은 수치를 보여주는 대시보드 (dashboards)가 있었지만, 그것들은 아웃바운드 잠재 고객 발굴과 고객 통신을 혼재시키고 있었고, 시퀀스 엔진에 의해 자동으로 실행된 후속 단계와 실제 새로운 퍼스트 터치 (first-touch) 발송을 섞어 놓았으며, 활성 시퀀스와 휴면 시퀀스를 구분하지 않았습니다. 우리는 신뢰할 수 있다고 믿었던 계기판을 가지고 눈을 가린 채 비행하고 있었던 셈입니다.

에이전트(Agent)의 코드를 단 한 줄이라도 작성하기 전에 제가 가장 먼저 해결해야 했던 것은 데이터였습니다. 이 작업은 에이전트 자체를 만드는 것보다 더 오래 걸렸습니다. CRM은 동일한 오브젝트 타입(Object type) 아래에 다양한 유형의 아웃바운드 이메일을 저장합니다. 따라서 진정한 퍼스트 터치(First-touch) 영업 이메일만을 추출하려면 각 시퀀스 템플릿 ID(Sequence template ID)를 정확한 단계에 매핑하고, 고객 및 내부 교신을 제외하기 위한 필터(Exclusion filters)를 구축하며, 결과물이 깨끗해질 때까지 수동 검증 샘플을 실행해야 했습니다.

교훈: 데이터 문제는 항상 에이전트 문제보다 더 어렵습니다. 유사한 것을 구축하려는 사람이라면 이 단계에 예상보다 더 많은 시간을 할당해야 합니다.

디브리프 에이전트(Debrief agent)가 실제로 하는 일

데이터 기반이 탄탄해진 후, 에이전트는 매주 금요일 아침 5단계에 걸쳐 실행됩니다.

1단계 — 데이터 추출 및 필터링 (Data pull and filtering). 에이전트는 대상 주간 동안 SDR들이 보낸 모든 아웃바운드 이메일을 추출하고, 계층화된 필터(Layered filters)를 적용하여 다른 모든 것들로부터 진정한 영업(Prospecting) 이메일을 분리합니다. 매 실행 시마다 수동 검증을 위해 5개의 이메일이 무작위 샘플로 추출됩니다. 이는 팀이 새로운 시퀀스를 도입함에 따라 필터의 정확도를 유지하는 지속적인 보정(Calibration) 단계입니다.

2단계 — 코호트 할당 (Cohort assignment). 모든 이메일은 발송된 ISO 달력 주차(ISO calendar week)에 할당됩니다. 이것이 정직한 측정의 기초입니다. 답장과 미팅은 이메일이 발송된 후 며칠 또는 몇 주 후에 도착하기 때문에, 당해 주에 발송된 건에 대해 참여도(Engagement)를 평가할 수 없습니다. 각 코호트는 데이터가 성숙함에 따라 다시 측정됩니다. 오픈율(Open rates)은 7일, 답장률(Reply rates) 및 미팅 예약(Meetings booked)은 28일을 기준으로 합니다.

3단계 — 지표 계산 (Metric computation). 참여도는 터치 단계별, 시퀀스별, SDR별, 국가별, 그리고 수신자 역할(Recipient role)별로 측정됩니다. 북극성 지표(North-star metric)는 항상 아웃바운드를 통해 예약된 미팅(Meetings booked)입니다. 발송 건수(Sends)나 오픈 수(Opens)가 아닙니다. 일일 활동 바(Daily activity bar)는 합의된 목표 대비 일일 퍼스트 터치 이메일 수와 일일 도달한 고유 기업 수(Unique companies reached)를 추적합니다. 결정적으로, 시퀀스 엔진의 자동 후속 조치(Automated follow-ups)가 아닌, 진정한 퍼스트 터치 발송 건만이 활동 바에 집계됩니다.

4단계 — 이동 평균 기준선 비교 (Rolling baseline comparison). 각 지표는 4주 이동 평균 (four-week rolling average)과 비교됩니다. 변화가 유의미한 것으로 간주되려면 표준 편차 테스트 (standard deviation test)와 최소 임계값 (minimum threshold)을 모두 통과해야 합니다. 임계값은 비율 (rates)의 경우 5퍼센트 포인트, 수량 (counts)의 경우 20퍼센트의 상대적 변화입니다. 이 기준 미만은 노이즈 (noise)로 간주합니다.

5단계 — 후보 레슨 생성 (Candidate lesson generation). 패턴이 유의미하고 일반화할 수 있을 만큼 충분히 크면, 추천 (recommendation)이 아닌 후보 (candidate)로서 나타납니다. 사람이 이를 검토하고, 팀과 논의하며, 적용 여부를 결정합니다. 오직 그 단계에서만 플레이북 (playbook)에 포함됩니다.

이것의 유용성을 결정지은 두 가지 설계 선택

CRM 접근 권한과 역량 있는 모델이 있다면 누구든 며칠 만에 이 시스템의 버전을 구축할 수 있습니다. 유용한 버전과 쓸모없는 버전을 가르는 것은 두 가지 결정입니다.

코호트 성숙도 윈도우 (Cohort Maturity Windows). 매주 유혹에 빠지기 쉬운 것은 이번 주에 발송된 이메일에 대한 참여도를 측정하는 것입니다. 데이터가 바로 눈앞에 있고, 의미 있어 보이기 때문입니다. 하지만 그렇지 않습니다. 회신율 (Reply rates)과 미팅 예약률 (meeting-booked rates)이 안정화되려면 28일이 필요합니다. 미성숙한 데이터로부터 결론을 도출하면, 잘 작동하던 것을 바꾸고 작동하지 않던 것을 유지하게 됩니다. 에이전트 (agent)는 최소 28일이 경과한 코호트 (cohorts)로부터만 추천을 제시합니다. 이번 주의 데이터는 진행 중 (in-flight)인 상태로 표시됩니다. 즉, 볼 수는 있지만 실행 (actionable)할 수는 없습니다.

초기 몇 주 동안은 이것이 보수적으로 느껴졌습니다. 하지만 통계적으로 유효한 첫 번째 추천이 도착하기 시작한 5주 차에 접어들었을 때, 이것이 옳았음을 느꼈습니다.

피드백 준수 루프 (The Feedback Compliance Loop). 일단 교훈이 확인되어 SDR(Sales Development Representative)들과 공유되면, 에이전트(Agent)는 이를 잊지 않습니다. 에이전트는 해당 교훈을 기계가 확인 가능한 규칙(Machine-checkable rule)이 포함된 구조화된 파일에 추가하고, 이후 매주 준수 여부(Compliance)를 측정합니다. 영업 코칭의 실패 모드 — 즉, 영업 담당자가 미팅에서는 동의하지만 실제 업무에서는 아무것도 바꾸지 않는 현상 — 가 막연한 느낌이 아닌 데이터로서 가시화됩니다. 만약 준수율이 3주 연속 목표치 미만으로 떨어지면, 이는 에스컬레이션(Escalation) 항목으로 떠오릅니다. 대화의 흐름은 "당신이 이걸 안 하고 있는 것 같아요"에서 "3주 동안 준수율이 40%에 머물러 있습니다. 무엇이 이를 가로막고 있는지 이야기해 봅시다"로 전환됩니다.

이것은 설계 과정에서 얼마나 중요한지 깨닫고 저를 가장 놀라게 했던 선택이었습니다. 준수 확인(Compliance check)이 없는 피드백 루프는 그저 일기장에 불과합니다. 준수 확인이야말로 이를 코칭 시스템으로 만드는 핵심입니다.

첫 30일 동안 변화된 점

상단에서 공유한 수치들은 단순히 디브리프 에이전트(Debrief Agent) 하나만으로 만들어진 것이 아닙니다. 무엇이 무엇을 견인했는지 정확히 짚고 넘어갈 가치가 있습니다.

First-touch 볼륨의 139% 증가는 주로 측정의 명확성(Measurement clarity)에서 비롯되었습니다. 디브리프 에이전트 도입 전에는, 일일 활동 기준(Daily activity bar)에 시퀀스 엔진(Sequence engine)의 자동 후속 조치(Follow-ups), 고객 교신, 수동 스레드 답장을 포함한 모든 아웃바운드 이메일이 집계되었습니다. 당시 SDR은 목표를 달성하고 있는 것처럼 보였습니다. 하지만 실제로 일어나고 있었던 일은 엔진이 대부분의 발송을 수행하고 있었고, 실제 새로운 잠재 고객 발굴(Prospecting)은 하루 9~~10통의 이메일에 머물러 있었다는 것입니다. 이는 목표치인 25~~30통에 훨씬 못 미치는 수준이었습니다. 기준을 실제 First-touch 발송 건수만 집계하도록 재설정하자, 진짜 베이스라인(Baseline)이 드러났습니다. 지난 2주 동안 하루 23통, 가장 최근 주에는 27.6통으로 개선된 결과는, SDR들이 실제 수치를 확인한 후 자신들의 실제 신규 잠재 고객 발굴 행동을 조정하면서 나타난 결과였습니다.

시퀀스 정교화 (Sequence sophistication) — 하나의 일반적인 오프닝 각도에서 7개의 개인화된 진입점 변형(entry-point variants)으로의 변화 — 는 캠페인 에이전트(Campaign Agent)가 리서치 품질을 개선함으로써 이루어졌습니다. SDR들은 단순히 더 많은 이메일을 보내는 것이 아니었습니다. 그들은 특정 신호(signals)에 기반한 더 나은 이메일을 보내고 있었습니다. 예를 들어, 팀 규모를 확장 중인 기업, 신규 인력 채용과 함께 진행되는 새로운 ERP 도입, 프로젝트 추적의 복잡성을 가진 다중 엔티티(multi-entity) 구조 등이 그 신호였습니다. 이것이 바로 콜(call)을 앞두고 30분밖에 시간이 없는 영업 담당자가 아닌, 어떤 신호를 찾아야 하는지 아는 에이전트가 잠재 고객 발굴(prospecting) 리서치를 수행할 때 일어나는 현상입니다.

-57%의 바운스율(bounce rate) 감소는 디브리프 에이전트(Debrief Agent)가 가시화한 도달 가능성(deliverability) 정화 작업의 결과였습니다. 2.76%의 바운스율은 대부분의 이메일 도달 가능성 가이드에서 도메인 평판(domain reputation)이 손상되기 시작하는 지점으로 언급하는 경고 임계값을 상회하는 수준이었습니다. 어떤 발송 건이 왜 바운스되었는지에 대한 명확한 분석과 함께 이 수치가 매주 디브리프(debrief)에 나타나기 시작하자, 이는 단순한 배경 소음이 아닌 우선적으로 해결해야 할 과제가 되었습니다. 2주 이내에 바운스율은 1.18%로 떨어졌습니다.

스텝 비율(step ratio) 개선 — 1:1.16에서 1:0.93으로 — 은 제가 구조적으로 가장 의미 있다고 생각하는 지표입니다.

이 지표가 무엇을 측정하는지에 대해 간단히 설명하겠습니다. 귀하의 시퀀스 엔진(sequence engine)은 SDR이 아무것도 하지 않아도 이미 시퀀스에 포함된 연락처에 대해 후속 스텝(step 2, step 3, step 4 등)을 자동으로 실행합니다. 반면 진정한 퍼스트 터치(first-touch) 이메일은 그 반대입니다. SDR이 완전히 새로운 연락처로 완전히 새로운 시퀀스를 시작하는 것을 의미합니다. 스텝 비율은 이 두 수치, 즉 퍼스트 터치 발송 건수 대 자동으로 실행된 후속 스텝 수를 비교합니다.

1:1.16의 비율에서 엔진은 새로운 연락처가 1명 추가될 때마다 1.16개의 자동 스텝을 실행하고 있었습니다. 소비가 보충을 앞지르고 있었던 것입니다. 이는 마치 출금이 예금을 약간 초과하는 은행 계좌와 같습니다. 즉각적으로 눈에 띄지는 않지만, 활성 잠재 고객 풀(prospect pool)이 서서히 줄어듭니다. 실제로 이는 SDR이 새로운 사람을 거의 추가하지 않으면서도 (엔진에 의한 많은 활동 덕분에) 바빠 보일 수 있음을 의미합니다.

1:0.93 지점에서 상황이 반전되었습니다. 새로운 잠재 고객 발굴 (Prospecting)이 이제 소비를 앞지르고 있습니다. 풀 (Pool)이 성장하고 있습니다.

대부분의 아웃바운드 대시보드는 이를 결코 드러내지 않습니다. 대시보드는 오픈율, 회신율, 미팅 수 등을 보여주지만, 이 중 어떤 것도 파이프라인 (Pipeline)이 구축되고 있는지 아니면 조용히 고갈되고 있는지를 알려주지 않습니다. 단계 비율 (Step ratio)은 이를 조기에 포착합니다. 이 비율이 1.0을 넘어서면 그것은 당장의 위기가 아닙니다. 현재의 시퀀스 (Sequences)가 만료되는 3~4주 후에 닥칠 파이프라인 문제입니다. 디브리핑 에이전트 (Debrief Agent)는 이를 참여 지표 (Engagement metrics)와 함께 구조적 건강 신호 (Structural health signal)로 추적합니다.

다음 단계

완전히 성숙한 첫 번째 코호트 (Cohort) — 28일이 경과하여 회신 및 미팅 데이터가 모두 완료된 집단 — 가 6월 초에 도착합니다. 그때가 바로 추천 엔진 (Recommendation engine)이 통계적으로 유효한 입력을 바탕으로 처음 작동하는 시점입니다. 그때까지 우리는 베이스라인 설정 (Baseline-establishment) 단계에 있었습니다.

저는 60일과 90일 시점에 회신율과 미팅 예약 데이터를 포함하여 이 글을 업데이트하겠습니다. 만약 해당 지표들이 볼륨 (Volume) 및 도달 가능성 (Deliverability)과 동일한 궤적을 따른다면, 이 이야기는 복리로 성장할 것입니다. 만약 그렇지 않더라도, 그 또한 정직하게 기록할 가치가 있을 것입니다.

더 깊은 교훈

에이전트 (Agent)가 해자 (Moat)가 아닙니다. 루프 (Loop)가 해자입니다.

누구나 모델에게 지난주 이메일을 요약하라고 프롬프트 (Prompt)를 줄 수 있습니다. 진정한 해자는 매주 발생하는 데이터를 지난주보다 더 가치 있게 만드는 구조화되고 복리로 작용하는 시스템입니다. 왜냐하면 데이터가 이동 베이스라인 (Rolling baseline)과 비교되고, 일관된 프레임워크 (Framework)를 통해 해석되며, 준수 여부를 측정할 수 있는 교훈으로 변환되기 때문입니다. 일단 가동되기 시작한 그 루프는 잊지 않습니다. 나쁜 주 (Bad weeks)를 겪지도 않습니다. 그리고 누군가 측정을 시작하기 전의 습관으로 팀이 되돌아가는 것을 허용하지 않습니다.