Insights Generator: LLM 에이전트를 위한 체계적인 코퍼스 수준의 트레이스 진단

LLM 에이전트의 실패를 진단하는 작업은 여전히 상당 부분 수동으로 이루어집니다. 실무자들은 실행 트레이스 (execution traces)의 작은 하위 집합을 검사하고, 임시 가설 (ad-hoc hypotheses)을 세우며, 이를 반복합니다. 이 과정은 트레이스 집단 (trace populations) 전체에서만 나타나는 패턴을 놓치게 되며, 개별 트레이스가 수만 개의 토큰에 달하는 프로덕션 코퍼스 (production corpora) 규모로는 확장되지 못합니다. 우리는 코퍼스 수준의 트레이스 진단 (corpus-level trace diagnostics) 문제를 공식화합니다. 실행 트레이스 코퍼스가 주어졌을 때, 목표는 각 트레이스 그룹 전반의 체계적인 행동 패턴을 특징짓는 근거 있는 자연어 통찰 (natural-language insights)을 생성하는 것이며, 이는 각각 뒷받침하는 증거와 연결되어야 합니다. 우리는 트레이스 코퍼스 전반에 걸쳐 가설을 제안하고 테스트함으로써 진단 질문에 답하고, 증거에 기반한 통찰 보고서를 생성하는 멀티 에이전트 시스템 (multi-agent system)인 Insights Generator (IG)를 제시합니다. 우리는 루브릭 기반 보고서 평가와 IG의 통찰을 구현함으로써 달성한 다운스트림 성능 향상을 포함하여, 질적 및 객관적 차원에서 IG를 평가합니다. IG 보고서를 사용하는 인간 전문가는 수정되지 않은 베이스라인 스캐폴드 (baseline scaffold) 대비 스캐폴드 성능을 30.4pp 향상시켰으며, IG에서 도출된 통찰을 활용하는 코딩 에이전트 (coding agents)는 일관되고 안정적인 이득을 보여주었습니다. 여러 벤치마크에 걸쳐, IG의 스카우트-조사관 (scout-investigator) 아키텍처는 경쟁 방식들과 탐지 범위 면에서 대등한 결과를 생성하는 동시에, 도메인 전문가들은 IG 보고서의 깊이와 증거 품질이 가장 뛰어나다고 평가했습니다.

Insights

Insights Generator: LLM 에이전트를 위한 체계적인 코퍼스 수준의 트레이스 진단

요약

핵심 포인트

댓글

에어버스, MTU Aero Engines와 합작법인 설립하여 완전 전기 수소 연료 전지 엔진 개발 추진

루프 시작하기

월스트리트가 극찬한 이 엣지 AI 주식

월요일 주식 시장 개장 전 알아야 할 5가지

에어버스, MTU Aero Engines와 합작법인 설립하여 완전 전기 수소 연료 전지 엔진 개발 추진

루프 시작하기

월스트리트가 극찬한 이 엣지 AI 주식

월요일 주식 시장 개장 전 알아야 할 5가지