분포 변화(Distribution Shift) 상황에서 에이전트 리더보드가 오해를 불러일으키는 이유 (IBM): 예측 타당성

무엇인가 (What): 새로운 IBM 논문인 **"Beyond Static Leaderboards"**는 우리가 AI 에이전트를 순위 매기는 방식이 잘못되었다고 주장합니다. 현재의 리더보드는 각 에이전트를 하나의 **종합 점수 (aggregate score)**로 축소하고 이를 기준으로 정렬합니다. 논문이 제안하는 해결책은 **예측 타당성 (predictive validity)**입니다. 이는 **벤치마크의 순위와 분포 외 (out-of-distribution) 상황에서 나타날 순위 사이의 순위 상관관계 (rank correlation)**를 의미합니다.

왜 중요한가 (Why): 단일 리더보드 수치는 **실제 배포 (real deployment)를 위한 약한 신호 (weak signal)**입니다. 평가 (eval)의 핵심 목적은 어떤 에이전트를 출시할지 결정하는 것입니다. 만약 벤치마크의 1위가 실제 배포 환경에서의 1위가 아니라면, 당신이 신뢰했던 순위는 잘못된 에이전트를 가리킨 것입니다. 이것이 **평가 및 진단 (Evals & Diagnostics)**과 **운영 환경 평가 (Production Evals)**의 핵심 교훈입니다.

기존 방식과의 차이 (vs prior): 기존 방식이 하나의 벤치마크에서 **종합 평균 점수 (aggregate mean score)**로 에이전트의 순위를 매기고 그 순서를 신뢰하는 반면, 예측 타당성은 더 날카로운 질문을 던집니다: 그 순서가 분포 변화 (distribution shift) 상황에서도 유지되는가? IBM의 연구 결과는 냉혹합니다. 종합 점수 기반의 순위는 분포 외 (out-of-distribution) 상황으로 전이되지 않습니다 (do not transfer).

비유하자면

실내 기록으로 단거리 선수를 순위 매긴 다음, 바람이 부는 야외에서 경주를 시키는 것과 같습니다.

          동일한 선수들, 두 가지 방식으로 순위 매기기
                         │
          ┌──────────────┴──────────────┐
...

단거리 선수 (sprinter) = 리더보드에서 경쟁하는 모델
실내 개인 최고 기록 순위 (indoor personal-best ranking) = 통제된 하나의 환경에서 측정된 종합 점수 리더보드
바람 부는 야외 경주 (racing outdoors in the wind) = 변화된, 분포 외 (out-of-distribution) 워크로드 하에서의 배포
시상대 순위 재편 (the podium reshuffling) = 조건이 변할 때 발생하는 순위 불안정성
예측 타당성 (predictive validity) = 실내 순위가 실제 야외에서 누가 승리할지를 얼마나 잘 예측하는가

빠른 용어 정리

예측 타당성 (Predictive validity) — 측정 이론 (measurement theory)에서 빌려온 개념입니다: 테스트 점수가 해당 테스트가 측정하고자 하는 실제 세계의 결과를 예측하는가? 에이전트 평가 (agent evals)에 대해, IBM은 이를 **표본 내 (in-sample) 결과와 분포 외 (out-of-distribution) 결과 사이의 순위 상관관계 (rank correlation)**로 정의합니다. 이는 단순한 원시 점수 (raw score)가 아니라, 조건이 변할 때 에이전트들의 _순서 (ordering)_가 유지되는지 여부를 의미합니다.

집계 점수 (Aggregate score) — 리더보드가 에이전트당 보고하는 단일 수치로, 일반적으로 여러 태스크에 걸친 평균값입니다. 정렬하기는 쉽지만, 순위가 안정적인지 알려주는 분산 (variance)을 버리게 됩니다. AI Agents → Evals & Diagnostics를 참조하세요.

인샘플 (In-sample) 대 분포 외 (Out-of-distribution, OOD) — 인샘플 (In-sample) = 벤치마크가 실제로 측정한 조건입니다. 분포 외 (Out-of-distribution) = 배포 시 발생하는 모든 차이점 — 새로운 태스크 유형, 새로운 오케스트레이션 (orchestration), 변화된 입력 혼합 (input mix) 등을 의미합니다. 이 둘 사이의 간극이 리더보드가 조용히 실패하는 지점이며, 프로덕션 팀은 이를 드리프트 (drift)로 관찰합니다.

순위 상관관계 (Rank correlation) — 동일한 항목에 대한 두 순위가 얼마나 잘 일치하는지를 측정하는 척도입니다. +1은 동일한 순서, 0은 무관함, −1은 역순을 의미합니다. 예측 타당성 (Predictive validity)이란 바로 인샘플 순위와 OOD 순위 사이에서 계산된 이 수치입니다.

순위 불안정성 (Rank instability) — 조건의 작은 변화가 리더보드를 뒤섞을 때 발생합니다. 예를 들어, 인샘플에서 1위였던 에이전트가 분포 외 (OOD) 상황에서는 3위로 떨어지는 경우입니다. IBM은 **공개 대회에서 비공개 대회로의 회고 (public-to-hidden competition retrospectives)**를 이러한 현상이 발생한다는 직접적인 증거로 지목합니다.

반증 가능한 기준 (Falsifiable criterion) — 실제로 통과/실패를 판정할 수 있는 테스트입니다. IBM은 예측 타당성을 세 가지 반증 가능한 분포 외 (out-of-distribution) 기준을 통해 정의하므로, 벤치마크의 타당성 주장이 단순히 주장되는 것에 그치지 않고 검증 및 거부될 수 있습니다.

MCP 기반 에이전트 벤치마크 (MCP-based agent benchmark) — Model Context Protocol 도구 인터페이스를 기반으로 구축된 벤치마크로, 동일한 에이전트 하네스 (agent harness)를 다양한 방식으로 재구현할 수 있습니다. IBM은 이러한 산업용 에이전트 벤치마크 중 하나를 14개의 병렬 구현 (fourteen parallel implementations) 방식으로 실행했습니다.

뉴스. 2026년 6월 18일, IBM이 이끄는 팀(Dhaval Patel et al.)이 arXiv에 Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents를 게시했습니다. 이들은 자산 클래스(asset classes), 오케스트레이션(orchestrations), 검색 전략(retrieval strategies), 추론 모드(reasoning modes)를 다양화하여 MCP 기반의 산업용 에이전트 벤치마크에 대해 **14개의 병렬 구현 연구 (fourteen parallel implementation studies)**를 수행했으며, 7개의 기존 에이전트 벤치마크를 통합했습니다. 핵심 내용은 다음과 같습니다: 통합 점수에서 도출된 순위는 분포 외 (out-of-distribution, OOD) 설정으로 **전이되지 않는다 (do not transfer)**는 것입니다. 이들은 단 하나의 숫자 대신, 예측 타당성 (predictive validity), 즉 표본 내 (in-sample) 순위와 분포 외 (out-of-distribution) 순위 사이의 상관관계에 따라 벤치마크 구성을 순위 매길 것을 제안합니다. 이는 **3가지 반증 가능한 기준 (three falsifiable criteria)**을 갖춘 **12단계 측정 장치 (twelve-tier measurement apparatus)**로 구조화되었습니다. 논문 읽기 →

실내의 빠른 트랙 위에서, 바람이 없는 상태로 단거리 선수들의 기록을 측정하여 개인 최고 기록을 바탕으로 순위를 매기는 상황을 상상해 보십시오. 서류상으로는 누가 가장 빠른지—첫 번째, 두 번째, 세 번째 순서대로—정확히 알 수 있습니다. 그러다 실제 경기 날, 야외에서 맞바람이 몰아치는 상황이 되면 시상대의 순위가 뒤바뀝니다. 실내 기록 보유자는 3위로 밀려나고, 실내에서 가장 빠르지 않았던 누군가가 실제로 중요한 경기를 승리합니다. 실내 시계가 거짓말을 한 것은 아닙니다. 그것은 하나의 설정에서 실제 속도를 측정했습니다. 다만 그 순위가 바람을 견뎌낼 수 있을지는 알려줄 방법이 없었을 뿐입니다. 여기서 단거리 선수는 에이전트이고, 실내 순위는 통합 점수 리더보드이며, 야외 경기는 배포 (deployment)입니다. 그리고 실내 시계가 답할 수 없는 질문이 바로 **예측 타당성 (predictive validity)**입니다.

리더보드는 실내 시계가 하는 것과 정확히 똑같은 일을 합니다. 각 에이전트를 고정된 일련의 태스크(battery of tasks)에 실행시키고, 그 결과를 하나의 **종합 점수 (aggregate score)**로 평균 내어 정렬하는 것입니다. 그 정렬 결과가 바로 트윗, 순위표, "최고의 오픈 에이전트"라는 헤드라인처럼 모든 사람이 소비하는 결과물입니다. 하지만 평균은 단 하나의 태스크 분포 (distribution of tasks) 하에서 측정되며, IBM 연구의 핵심 결과는 분포가 이동하면 그 정렬 결과가 유지되지 않는다는 것입니다. 그들이 동일한 산업용 에이전트 벤치마크를 오케스트레이션 (orchestration), 검색 전략 (retrieval strategies), 추론 모드 (reasoning modes)를 교체하며 14가지의 서로 다른 방식으로 구축했을 때, 순위들은 서로 일치하지 않았으며, 공개 경쟁에서 비공개 경쟁으로 넘어가는 회고(retrospectives)에서도 실제 환경에서의 동일한 순위 불안정성을 보여주었습니다.

더 깊은 차원의 접근은 벤치마크를 점수판 (scoreboard)으로 취급하는 것을 멈추고, **측정 도구 (measurement instrument)**로 취급하기 시작하는 것입니다. 그리고 모든 도구에 대해 측정 이론 (measurement-theory)의 질문을 던지는 것입니다: 이 도구의 측정값이 당신이 실제로 중요하게 생각하는 것을 예측하는가? IBM은 이를 예측 타당성 (predictive validity)으로 구체화합니다. 즉, 특정 구성의 인샘플 (in-sample) 순위와 분포 외 (out-of-distribution) 순위 사이의 순위 상관관계 (rank correlation)입니다. 이 수치가 +1에 가까우면 리더보드가 현실을 예측한다는 의미이고, 0에 가까우면 그렇지 않다는 의미입니다. 그들은 이를 세 가지 반증 가능한 기준을 가진 12단계 장치로 감싸 놓았기 때문에, 벤치마크의 타당성 주장은 단순히 주장하는 것이 아니라 테스트하고 거부할 수 있는 것이 됩니다. 운영(production) 관점에서 이는 오프라인 리더보드를 신뢰하는 것과, 변화된 온라인 트래픽 하에서 순위가 어떻게 유지되는지 관찰하는 것의 차이입니다.

벤치마크를 읽는 방식	보고하는 내용	놓치고 있는 것
종합 점수 (오늘날의 리더보드)	에이전트당 하나의 평균값 → 정렬된 순위	해당 순위가 조건의 변화 속에서도 살아남는지 여부
...

순위가 깨지는 지점

불안정한 순위가 노이즈가 많은 순위보다 더 나쁜 이유를 살펴보겠습니다. 세 에이전트(A, B, C)의 예시를 들어보겠습니다. 집계 점수 리더보드는 A, B, C를 71점, 70점, 68점으로 각각 A > B > C 순위로 매깁니다. 간격은 매우 작지만, 리더보드는 자신감 있는 순서를 보고하며 팀이 이를 읽고 A에 착수합니다. 이제 분포가 변화했다고 가정해 봅시다. 새로운 자산 클래스나 다른 오케스트레이션(orchestration)을 사용하고 다시 점수를 매기자 A는 64점으로 떨어지고, B는 69점에 머물며, C는 67점까지 상승했습니다. 이 분포 외부(out-of-distribution) 순위는 B > C > A가 되어, A와 C가 시작했던 순서와 정확히 반대입니다. 두 가지 순위 간의 순위 상관관계(rank correlation)는 **음수(negative)**였습니다. 즉, 리더보드는 단순히 정밀도를 잃은 것이 아니라, 잘못된 에이전트를 가리킨 것입니다. (_14가지 구현체, 12단계 장치, 3가지 검증 가능한 기준만 논문에서 가져온 것이며, A/B/C 점수는 예시입니다.) 깔끔하게 정렬된 단일 집계 숫자는 가장 중요한 사실, 즉 그 순서가 배포(ship)하기에 충분히 안정적이지 않았다는 것을 숨기고 있었습니다.

더 깊이 알아보기: AI 에이전트 → 평가 및 진단 (Evals & Diagnostics) → 합격/불합격 대 점수 (Pass/Fail vs Score)

왜 총점 기반의 에이전트 리더보드는 오해를 불러일으키는가?

단일 작업 분포 (single distribution of tasks) 하에서 측정된 하나의 평균값으로 에이전트 전체를 압축한 뒤, 그 값으로 정렬하기 때문입니다. IBM의 "Beyond Static Leaderboards" 연구에서는 동일한 산업용 에이전트 벤치마크를 14가지 방식으로 실행했으며, 그 결과 순위가 일치하지 않는다는 것을 발견했습니다. 또한 공개에서 비공개로 전환되는 경진대회(public-to-hidden competition)의 회고에서도 동일한 순위 불안정성이 나타납니다. 정렬된 순서는 권위 있어 보이지만, 조건이 변화하면 전이 (transfer)되지 않으므로 무엇을 출시할지 결정하는 데 있어 약한 신호 (weak signal)가 됩니다.

예측 타당성은 분포 변화 (distribution shift)와 어떤 관련이 있는가?

분포 변화 (distribution shift)는 예측 타당성이 테스트하는 바로 그 조건입니다. 인샘플 (In-sample)은 벤치마크가 측정한 작업들을 의미하며, 분포 외 (out-of-distribution)는 배포 시 발생하는 모든 차이점, 즉 새로운 작업 유형, 새로운 오케스트레이션 (orchestration), 변화된 입력 혼합 (input mix) 등을 의미합니다. 예측 타당성은 에이전트 순위가 그 간극을 가로질러 유지되는지를 묻습니다. IBM은 이 주장이 가정되는 것이 아니라 검증될 수 있도록, 세 가지의 반증 가능한 분포 외 (out-of-distribution) 기준을 가진 12단계 장치 (twelve-tier apparatus)로 이를 구조화했습니다.

원문 게시처: Learn AI Visually