계층 격리 평가: No-LLM, 회귀 고정 테스트 하네스를 통한 프로덕션 LLM 에이전트의 결정론적 스캐폴드 게이팅
요약
LLM 에이전트의 성능 저하 원인을 정확히 파악하기 위해 계층별로 격리하여 평가하는 '계층 격리 평가' 방법론을 제안합니다. No-LLM 방식의 결정론적 테스트 하네스를 통해 각 구성 요소의 결함을 빠르게 국지화하고 CI 환경에서 검증할 수 있습니다.
핵심 포인트
- 엔드 투 엔드 평가의 한계인 '집계 마스킹' 현상 해결
- No-LLM 기반의 빠르고 결정론적인 계층별 테스트 하네스 구축
- 에이전트 구성 요소를 온톨로지, 의도, 라우팅 등으로 분해하여 평가
- 회귀 주입 테스트를 통한 각 계층의 결함 국지화 입증
엔드 투 엔드(End-to-end) 작업 성공 여부는 LLM 에이전트를 평가하는 지배적인 방식이지만, 하나의 집계된 수치는 에이전트가 퇴보했다는 사실만 알려줄 뿐 어디에서 퇴보했는지는 알려주지 않습니다. 우리는 계층 격리 평가(Layer-isolated evaluation)를 제시합니다. 배포된 오더링(ordering) 에이전트는 고정된 분류 체계의 계층들(온톨로지(ontology), 의도(intent), 라우팅(routing), 분해(decomposition), 에스컬레이션(escalation), 안전(safety), 메모리(memory), 그리고 교차 기능적 엔벨로프/방어(cross-cutting envelope/defense))로 분해되며, 각 계층은 결정론적이고 No-LLM 방식인 "순수(pure)" 모드에서 자체적인 어설션 슬라이스(assertion slice)에 의해 실행됩니다. 이 순수 스위트(23개 슬라이스에 걸친 238개 케이스; 225개 케이스가 2.39초 내에 실행, 케이스당 약 10ms)는 모든 변경 사항에 대해 잠긴 슬라이스별 베이스라인(baseline)을 대상으로 CI(지속적 통합)에서 실행됩니다. 우리는 제어된 회귀 주입(regression injection)을 통해 검증하며, 안전을 제외한 7개의 비안전 계층에 대해 한 번에 하나의 계층을 저하시킵니다. 우리가 설계하지 않았으나 나타난 효과는 마스킹(masking)입니다. 집계된 통과율(pass-rate)은 거의 변하지 않지만(-6개 로컬 회귀에 대해 -1.7 ~ -5.9 pp), 일치하는 슬라이스는 급락합니다(-25 ~ -91 pp). 계층의 슬라이스가 자체 결함에 반응하는 것은 부분적으로 설계에 의한 것이지만, 측정된 결과는 (i) 집계 마스킹 현상과 (ii) 그 피해가 다른 슬라이스로 전이되지 않는다는 점을 보여줍니다. 주입된 계층의 슬라이스는 7개 케이스 중 5개에서 가장 큰 타격을 입었으며, 7개 케이스 모두에서 상위 3위 안에 들었습니다(19개 중 평균 순위 1.29). 국지화(Localization)는 구조적으로 다른 두 번째 테넌트(Starbucks SG)에서도 재현되었습니다. 7개 일치 슬라이스가 모두 급락했으므로, 이는 단일 카탈로그의 산물이 아닙니다. 우리는 이를 EDDOps가 규정하지만 구현되지 않은 채 남겨둔 컴포넌트 수준 평가의 구체적이고 결정론적인 실체로 정의하며, CheckList를 조상으로 삼고 전체 워크플로의 확률적 변이 테스트(stochastic mutation testing)의 결정론적 거울 이미지로 위치시킵니다. 우리의 기여는 다음과 같습니다: (a) 프로덕션 에이전트를 위한 완전히 분해된, 1초 미만의, No-LLM 방식의 계층별 하네스(harness), (b) 실행되지 않은 계층에 대한 점수 부여를 거부하는 커버리지 정직성(coverage-honesty) 테스트 적절성 기준, (c) 슬라이스별 베이스라인 고정 게이트가 집계 지표가 가리는 회귀를 국지화할 수 있음을 보여주는 회귀 주입 입증입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기