평가 (Eval) 스타트업들이 실패하는 이유

2025년 5월 8일

왜 독립적인 평가 (Eval) 스타트업은 이토록 적은가?

에이전트 (Agents), 음성 (Voice), 또는 음성 에이전트 (Voice agents)와 같은 새로운 AI 트렌드가 나타날 때마다, 개발자들은 수많은 선택지에 직면하게 됩니다. 그리고 그중 일부는 가장 좋은 모델을 식별하고 그 지식을 다른 개발자들에게 판매하는 것, 즉 평가 (Evals)를 판매하는 것에 비즈니스 기회가 있다고 확신합니다. 저는 생성형 AI (Generative AI)라고 부르기 전부터, 생성형 AI의 모든 물결 속에서 이런 현상을 목격해 왔습니다. 하지만 안전 평가 (Safety evals)라는 틈새 시장을 제외하고는 성공하는 사례를 본 적이 없습니다.

독립적인 평가 (Eval) 스타트업들이 사라지는 이유에 대해 몇 가지 이론을 가지고 있습니다. 첫째, 훌륭한 평가 (Evals)를 설계하고 실행할 수 있는 사람들은 모델 개발 스택 (Model development stack)의 다른 분야에서 더 많은 돈을 벌고 더 큰 영향력을 가질 수 있기 때문에 인재가 유출됩니다. 둘째, 평가 (Eval) 스타트업은 고객을 찾기가 어렵습니다. 고객은 API를 사용하여 구축하고자 하는 기술적인 개발자여야 하지만, 동시에 스스로 평가 (Evals)를 실행할 만큼 기술적이지는 않아야 하기 때문입니다. 셋째, 평가 (Eval) 스타트업은 일반적인 힐 클라이밍 (Hill climbing) 방식과 모델 개발자들의 압박 모두로부터, 자신들의 평가 (Evals)를 무용지물로 만드는 엄청난 최적화 (Optimization) 압박에 직면합니다.

평가 (Eval) 인재는 다른 곳에 쓰이는 것이 더 낫다

훌륭한 평가 (Eval) 인재들이 스택 (Stack)의 다른 부분으로 이동하는 이유는, 훌륭한 평가 (Evals)에 필요한 동일한 기술이 사후 학습 (Post-training) 및 애플리케이션 개발 (Application development)에도 유용하기 때문입니다. 그리고 이러한 분야들이 더 많은 가치를 포착하며, 즉 더 많은 돈을 벌고, 모델 개발에 더 직접적인 영향력을 미칩니다. 즉, 더 명성 있고 흥미롭습니다.

예를 들어, 좋은 평가 (Eval) 체계를 구축하려면 인간 피드백 파이프라인 (human feedback pipeline)을 운영하거나 합성 데이터 (synthetic data)를 활용하여 고품질 데이터를 수집해야 합니다. 고품질 데이터를 수집하는 것은 사후 학습 (post-training) 단계에서 주요한 병목 현상 (bottleneck)입니다. 평가 (eval)에 사용되는 데이터의 양은 사후 학습 (post-training)을 위해 수집된 데이터의 양보다 항상 수십 배에서 수백 배(orders of magnitude) 더 적습니다. 따라서 데이터 포인트당 가치가 동일하다고 가정할 때, 평가 (eval)를 위해 데이터를 수집함으로써 창출하는 가치는 사후 학습 (post-training)을 위해 데이터를 수집할 때 발생하는 가치에 비해 실질적으로 제한적입니다. 또한, 훌륭한 사후 학습 (post-train)의 재무적 수익은 수억 달러에서 수십억 달러에 달할 정도로 잠재력이 매우 높은 반면, 평가 (eval)의 재무적 수익은 가장 큰 평가 (eval) 계약 규모로 제한되며 이는 사후 학습 (post-training)과는 비교조차 되지 않습니다. 이러한 역학 관계는 기회 비용 (opportunity cost)의 개념을 이해하고 있는 영리한 젊은 연구자들에게 매우 명확하게 드러납니다. 그 예시로, 에이전트 (agents)를 평가하던 Epoch AI를 떠나 에이전트용 사후 학습 (post-training) 도구를 만드는 스타트업을 시작한 세 명의 연구자가 있습니다 [0].

충분한 평가 (eval) 고객의 부재

평가 (eval) 스타트업이 인재를 유지하더라도 고객을 찾는 데는 여전히 어려움을 겪습니다. 왜냐냐하면 "모델 API (model API)를 기반으로 구축하는 그룹"과 "모델을 평가할 수 없는 그룹"이라는 두 원의 벤 다이어그램 (Venn diagram) 교집합 영역이 무시할 수 있을 정도로 작기 때문입니다.

시장 조사 기관인 Gartner의 벤더(vendor) 비교 차트를 보면, X축은 환상적이고 Y축은 허구적입니다. 요컨대, 이 차트들은 해당 차트가 인쇄되어 제공되는 기업 임원들과 맞먹는 기술적 역량을 가진 유아들이 해석할 수 있도록 만들어졌습니다. 만약 제가 과장하고 있다고 생각하신다면, 구글에 "Gartner Magic Quadrant AI"를 검색해 보신 후 '차트 범죄 부서(Department of Chart Crimes)'에 신고하시길 권합니다. 이러한 수렁은 AI 평가 (eval) 스타트업들도 똑같이 빠져 있습니다. 사후 학습 (post-training) 모델을 다루는 고객이라면 누구나 분명히 스스로 평가 (eval) 체계를 구축하고 있습니다. 도구 사용 (tool use) 없이, Best-of-N 방식으로 계산된 AIME 2024에서 10%의 성능 향상이 갖는 의미와 함의를 이해하는 개발자라면, 직접 그 평가 (eval)를 수행하는 것과 큰 차이가 없습니다. 만약 그들이 GPT 4o와 GPT 4.1의 차이조차 이해하지 못한다면, 그들은 기능 (feature)이 아닌 솔루션 (solution)을 원하며, ELO에 대한 설명 따위는 전혀 필요로 하지 않는 유형의 고객입니다. Gartner는 클라우드 제공업체와 대규모 계약을 결정하는 임원들을 위해 내용을 단순화할 수 있지만, 평가 (eval) 스타트업들은 항상 개발자들에게 판매하고 싶어 하는 것처럼 보입니다. 따라서 AI 서비스에 대한 수요가 증가하더라도, 평가 (eval) 스타트업을 위한 시장이 매우 클 것인지에 대해서는 회의적입니다.

거대 연구소(Big labs)의 Goodhart 법칙이 적용된 평가 (evals)

이 두 가지 장애물을 극복한 평가 (eval) 스타트업은 이제 거대 연구소 (Big labs) 자체와 맞서야 합니다. 이들은 공개적인 평가 (eval) 순위를 높이도록 강력한 동기를 부여받으며, 수치를 개선하기 위해 압박을 가하거나 속임수를 쓰는 데 매우 적극적입니다. 벤치마크 (benchmarks)가 타겟이 되면, 더 다양한 데이터를 포함하는 것과 같은 선의의 조정부터, Meta가 Llama 1 [1]에서 수행했고 Llama 4 [2]에서도 수행했다는 루머가 있는 테스트 데이터에 대한 직접적인 학습에 이르기까지 모델은 급격히 개선될 수 있습니다. 따라서 평가 (eval) 스타트업은 자신의 고객을 잃고 싶지 않아 불공정한 우위를 활용하려는 거대 연구소들과의 잠재적인 적대적 관계를 경계해야 합니다. 거대 연구소들이 사용하는 다른 종류의 속임수로는 공개 리더보드 (leaderboards)에서 직원들에게 자사 모델에 투표하도록 요청하기, 평가 (eval) 스타트업의 직원을 빼오기, 더 나은 결과를 대가로 무료 컴퓨팅 자원 (compute)을 제시하기, 모델 성능에 대한 비공개 통찰력을 요구하기 등이 있으며, 이러한 기만 행위의 목록은 매우 깁니다.

원칙을 지키는 팀은 이러한 수법에 저항할 수 있겠지만, 의구심의 그림자를 떨쳐내기는 어렵습니다. 지난 2년 동안 모든 연구자는 스스로에게 물었습니다. — 왜 모든 새로운 모델 출시가 항상 LMSys Chatbot Arena 리더보드 최상단에 있는 것일까? Cohere가 주도한 새로운 보고서는 그 원인이 체계적인 게임 플레이 (gaming)라고 시사하며, Meta가 Llama 4 [3]를 출시하기 전에 27개의 고유한 모델 변형을 테스트했다고 주장합니다. 참고로, Meta는 자사의 아주 작은 Llama 4 Maverick 모델이 GPT-4.5보다 성능이 뛰어나다고 광고했으나, 그 결과가 출시 버전이 아닌 Chatbot Arena에 특화되어 최적화된 버전으로 달성된 것이며, 실제 출시된 버전은 형편없는 순위를 기록했다는 사실을 밝히기 전까지는 그러했습니다. 굿하트의 법칙 (Goodhart's Law): 어떤 측정치가 목표가 되는 순간, 그것은 더 이상 좋은 측정치가 아니게 됩니다. 그리고 모든 평가 (eval) 스타트업이 판매해야 하는 것은 바로 측정치입니다.

안전성 평가 (Safety evals)는 예외입니다

저는 평가 (eval) 스타트업들이 특히 안전성 벤치마크 (safety benchmarks)를 목표로 할 때 성공할 수 있다고 믿습니다. 안전성 평가 (safety evals)를 연구하고자 하는 연구자들은 능력 (capabilities) 연구에 종사하는 것에 이념적으로 반대하는 경향이 있으며, 이는 그들이 금전적 인센티브 때문에 사후 학습 (post-training)이나 애플리케이션 (applications) 분야로 이동하지 않음을 의미합니다. (이것이 거대 연구소 (big labs)의 내부 안전성 평가 부서가 인재를 유지하는 방식입니다.) 이들은 해당 서비스를 복제할 능력이 있는 기술적 고객들에게 서비스를 제공할 수 있는데, 이는 안전성 평가의 경우 해당 서비스가 내부에서만 수행되는 것이 아니라 외부 벤더 (external vendor)에 의해 제공되는 것이 특히 중요하기 때문입니다. 또한 이들은 정책 입안자들에게 판매할 수도 있고, 외부 모델 감사 (external model audits) 제안이 통과될 경우 규제에 의해 사업을 보장받을 수도 있습니다. 안전성 평가 스타트업들은 여전히 굿하트 법칙 (Goodharting)에 취약하겠지만, 만약 연구소들이 안전성 평가를 굿하트 (Goodharting) 하고 있다면, 그것은 다른 차원의 걱정거리입니다. 따라서 안전성 평가는 다른 평가들보다 더 적합하게 만들 수 있는 특정한 특성을 가지고 있습니다.

저는 평가 스타트업이 생존하기 어려운 세 가지 이유를 제시했습니다. 이 중 가장 치명적인 것은 첫 번째로, 평가를 잘하는 기업이나 엔지니어에게는 더 나은 기회들이 존재한다는 것이지만, 나머지 두 가지 역시 심각한 역풍을 일으킵니다. 저는 평가 스타트업에 반대하는 것이 아니며 그들을 응원하지만, 그들에게 기대를 걸고 있지는 않습니다.

추가 의견

위 내용은 애플리케이션 중심의 평가 (application-focused evals), 즉 모델 API 위에서 무언가를 구축하고자 하는 개발자들을 위한 평가에 관한 것입니다. 거대 연구소 (big labs)에 연구용 평가 (research evals)를 판매하려는 스타트업들도 있습니다. 이들은 실패할 것입니다. 왜냐하면 연구용 평가의 주요 목적은 연구 방향을 설정하는 것이며, 거대 연구소들은 자신들의 연구 의제 (research agenda)를 설정하는 것을 결코 외주 (outsource) 주지 않을 것이기 때문입니다. 또한, 연구용 평가를 외주 주는 것은 모델 반복 (model iteration) 과정에 엄청난 지연 (latency)을 추가하며, 속도 (velocity)가 곧 전부이기 때문입니다.

추가됨: 2025년 5월 21일. 평가 (evals)를 판매하는 것과 평가 도구 (evals tooling)를 판매하는 것 사이에는 차이가 있습니다. 인간의 라벨 (human labels)을 판매하는 것이 인간의 라벨을 수집하기 위한 도구를 판매하는 것과 다른 방식인 것처럼 — 하나는 운영 (ops) 마진을 가진 운영 (ops) 비즈니스이고, 다른 하나는 SaaS 마진을 가진 SaaS 비즈니스입니다 — 평가를 판매하는 것과 평가 도구를 판매하는 것은 매우 다른 경제성 (economics)을 가집니다. Chatbot Arena의 배후 조직인 LM Arena는 오늘 1억 달러 규모의 시드 라운드 (seed round)를 발표했습니다 [4]. 이는 매우 큰 금액입니다. 비교를 위해, 프런티어 모델 (frontier models) 학습을 목표로 하는 프랑스 기업 Mistral은 2023년 시드 단계에서 이보다 아주 약간 더 많은 금액을 조달했습니다 [5]. LM Arena는 수백만 명의 자원봉사자가 무료로 라벨링을 해주며, 이들은 평소라면 비쌀 프런티어 모델에 대한 접근 권한으로 사실상 보상을 받는다는 이점이 있지만, 그럼에도 불구하고 이것이 평가를 판매하는 것을 그들에게 훌륭한 비즈니스로 만들어준다고 생각하지는 않습니다. 저는 만약 그들이 성공한다면, 소프트웨어를 판매하거나 데이터 스트림 (data streams)에 대한 접근 권한을 판매하는 것과 같은 부가적인 서비스를 제공함으로써 성공할 것이라고 생각합니다.

참조된 링크

평가 (Eval) 스타트업들이 실패하는 이유 (2025)

요약

핵심 포인트