arXiv논문2026. 05. 21. 11:53

Insights Generator: LLM 에이전트를 위한 체계적인 코퍼스 수준의 트레이스 진단

요약

LLM 에이전트의 실패 원인을 수동으로 분석하는 한계를 극복하기 위해, 코퍼스 수준에서 체계적인 행동 패턴을 진단하는 멀티 에이전트 시스템인 Insights Generator(IG)를 제안합니다. IG는 스카우트-조사관(scout-investigator) 아키텍처를 통해 트레이스 전반의 가설을 제안하고 테스트하여 근거 있는 자연어 통찰 보고서를 생성합니다. 실험 결과, IG의 보고서를 활용한 전문가는 스캐폴드 성능을 30.4pp 향상시켰으며 코딩 에이전트의 성능 또한 일관되게 개선되었습니다.

핵심 포인트

수동 진단의 한계를 극복하는 코퍼스 수준의 트레이스 진단 프레임워크 제안
가설 제안 및 테스트를 수행하는 멀티 에이전트 시스템 'Insights Generator(IG)' 도입
스카우트-조사관(scout-investigator) 아키텍처를 통한 체계적인 패턴 탐지 및 증거 기반 통찰 생성
인간 전문가의 스캐폴드 성능을 30.4pp 향상시키며 실질적인 다운스트림 성능 개선 입증

LLM 에이전트의 실패를 진단하는 작업은 여전히 상당 부분 수동으로 이루어집니다. 실무자들은 실행 트레이스 (execution traces)의 작은 하위 집합을 검사하고, 임시적인 가설을 세우며, 이를 반복합니다. 이 과정은 트레이스 집단 전체에서만 나타나는 패턴을 놓치게 되며, 개별 트레이스가 수만 개의 토큰에 달하는 프로덕션 코퍼스 (production corpora) 규모로 확장되지 못합니다. 우리는 코퍼스 수준의 트레이스 진단 (corpus-level trace diagnostics) 문제를 공식화합니다. 실행 트레이스 코퍼스가 주어졌을 때, 목표는 각 트레이스 그룹 전반에 걸친 체계적인 행동 패턴을 특징짓고, 각각의 패턴이 뒷받침되는 증거와 연결된 근거 있는 자연어 통찰 (natural-language insights)을 생성하는 것입니다. 우리는 증거에 기반한 통찰 보고서를 생성하기 위해 트레이스 코퍼스 전반에 걸쳐 가설을 제안하고 테스트함으로써 진단 질문에 답하는 멀티 에이전트 시스템 (multi-agent system)인 Insights Generator (IG)를 제시합니다. 우리는 루브릭 기반 보고서 평가와 IG의 통찰을 구현함으로써 달성된 다운스트림 성능 향상을 아우르는 질적 및 객관적 차원에서 IG를 평가합니다. IG 보고서를 사용하는 인간 전문가는 수정되지 않은 베이스라인 스캐폴드 (baseline scaffold) 대비 스캐폴드 성능을 30.4pp 향상시켰으며, IG에서 도출된 통찰을 활용하는 코딩 에이전트들은 일관되고 안정적인 이득을 보여주었습니다. 여러 벤치마크에 걸쳐, IG의 스카우트-조사관 (scout-investigator) 아키텍처는 경쟁 방식과 대등한 탐지 범위를 갖는 발견을 생성하는 동시에, 도메인 전문가들은 IG 보고서의 깊이와 증거 품질이 가장 뛰어나다고 평가했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Insights Generator: LLM 에이전트를 위한 체계적인 코퍼스 수준의 트레이스 진단

요약

핵심 포인트

댓글