본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 23:51

Insights Generator: LLM 에이전트를 위한 체계적인 코퍼스 수준의 트레이스 진단

요약

LLM 에이전트의 실패를 진단하기 위해 코퍼스 수준의 트레이스를 분석하는 멀티 에이전트 시스템 'Insights Generator(IG)'를 제안합니다. IG는 가설 제안과 테스트를 통해 체계적인 행동 패턴을 자연어로 요약하며, 전문가의 성능을 30.4pp 향상시키는 효과를 입증했습니다.

핵심 포인트

  • 수동 진단의 한계를 극복하는 코퍼스 수준의 체계적 진단 프레임워크 제안
  • 스카우트-조사관(scout-investigator) 아키텍처 기반의 멀티 에이전트 시스템
  • 전문가의 스캐폴드 성능을 30.4pp 향상시키는 실질적 효과 입증
  • 증거 기반의 자연어 통찰 보고서 생성 및 질적 평가 완료

LLM 에이전트의 실패를 진단하는 작업은 여전히 상당 부분 수동으로 이루어집니다. 실무자들은 실행 트레이스 (execution traces)의 작은 하위 집합을 검사하고, 임시 가설 (ad-hoc hypotheses)을 세우며, 이를 반복합니다. 이 과정은 트레이스 집단 (trace populations) 전체에서만 나타나는 패턴을 놓치게 되며, 개별 트레이스가 수만 개의 토큰에 달하는 프로덕션 코퍼스 (production corpora) 규모로는 확장되지 못합니다. 우리는 코퍼스 수준의 트레이스 진단 (corpus-level trace diagnostics) 문제를 공식화합니다. 실행 트레이스 코퍼스가 주어졌을 때, 목표는 각 트레이스 그룹 전반의 체계적인 행동 패턴을 특징짓는 근거 있는 자연어 통찰 (natural-language insights)을 생성하는 것이며, 이는 각각 뒷받침하는 증거와 연결되어야 합니다. 우리는 트레이스 코퍼스 전반에 걸쳐 가설을 제안하고 테스트함으로써 진단 질문에 답하고, 증거에 기반한 통찰 보고서를 생성하는 멀티 에이전트 시스템 (multi-agent system)인 Insights Generator (IG)를 제시합니다. 우리는 루브릭 기반 보고서 평가와 IG의 통찰을 구현함으로써 달성한 다운스트림 성능 향상을 포함하여, 질적 및 객관적 차원에서 IG를 평가합니다. IG 보고서를 사용하는 인간 전문가는 수정되지 않은 베이스라인 스캐폴드 (baseline scaffold) 대비 스캐폴드 성능을 30.4pp 향상시켰으며, IG에서 도출된 통찰을 활용하는 코딩 에이전트 (coding agents)는 일관되고 안정적인 이득을 보여주었습니다. 여러 벤치마크에 걸쳐, IG의 스카우트-조사관 (scout-investigator) 아키텍처는 경쟁 방식들과 탐지 범위 면에서 대등한 결과를 생성하는 동시에, 도메인 전문가들은 IG 보고서의 깊이와 증거 품질이 가장 뛰어나다고 평가했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0