arXiv논문2026. 06. 08. 11:21

DuMate-DeepResearch: 재귀적 검색 및 루브릭 기반 추론을 갖춘 감사 가능한 멀티 에이전트 시스템

요약

DuMate-DeepResearch는 복잡한 연구 과제를 해결하기 위해 설계된 멀티 에이전트 프레임워크입니다. 그래프 기반 동적 계획, 재귀적 2단계 실행, 루브릭 기반 최적화 메커니즘을 통해 기존 시스템의 계획 능력과 환각 문제를 개선했습니다.

핵심 포인트

에이전트 코어와 도구 생태계 분리로 감사 가능성 확보
그래프 기반 동적 계획을 통한 성찰 및 재계획 수행
재귀적 실행 설계를 통한 검색 노이즈 격리 및 안정화
루브릭 기반 테스트 시간 최적화로 합성 품질 향상
DeepResearch 벤치마크에서 SOTA 성능 달성

Deep Research (DR)는 복잡하고 개방적인 연구 과제를 해결하기 위한 새로운 에이전트 패러다임으로 부상하였으며, 문제를 반복적으로 프레임화하고, 증거를 수집하며, 출처를 검증하고, 장문의 보고서를 합성할 수 있는 시스템을 요구합니다. 그러나 실제로 현재의 DR 시스템은 서로 연관된 네 가지 제한 사항으로 인해 제약을 받습니다: 불충분하게 정의된 범위에 대한 장기 계획 (long-horizon planning), 단일 에이전트 내에서 이러한 과제를 분해하고 스케줄링하는 과정의 병목 현상, 장문 합성 시의 환각 (hallucination) 위험, 그리고 제한된 프로세스 감사 가능성 (auditability)입니다. 본 기술 보고서는 Qianfan Agent Foundry를 기반으로 구축된 멀티 에이전트 DR 프레임워크인 DuMate-DeepResearch를 제시합니다. 이 프레임워크는 작업 이해, 계획 및 스케줄링을 담당하는 에이전트 코어 (Agent Core)를 검색, 증거 수집 및 보고서 렌더링을 위한 확장 가능한 도구 생태계 (Tool Ecosystem)와 분리하여, 모든 중간 결정과 도구 호출을 명시적으로 추적할 수 있게 합니다. 이러한 인프라를 바탕으로 DuMate-DeepResearch는 세 가지 메커니즘을 추가로 도입합니다: (i) 그래프 기반의 동적 계획 전략은 연구 로드맵을 거친 단계에서 세밀한 단계로 확장하며, 성찰 (reflection), 재계획 (re-planning), 백트래킹 (backtracking) 및 병렬 분기 (parallel branching)를 통해 로드맵을 지속적으로 수정합니다; (ii) 재귀적인 2단계 실행 설계는 각 복잡한 검색 하위 과제를 자체적인 계획 루프를 실행하는 내부 검색 에이전트 (Search Agent)에 위임하여, 노이즈가 있는 검색을 격리하고 장기 실행을 안정화합니다; (iii) 루브릭 (rubric) 기반의 테스트 시간 최적화 (test-time optimization) 메커니즘은 작업별 품질 기준을 동적으로 생성하고, 이를 증거에 기반한 합성 및 적응형 중단 (adaptive stopping)을 위한 실시간 추론 스캐폴드 (reasoning scaffolds)로 사용합니다. 두 개의 딥 리서치 벤치마크를 통해 DuMate-DeepResearch는 새로운 SOTA (state-of-the-art) 결과를 수립했습니다: DeepResearch Bench에서 최고 종합 점수 (58.03%)를 기록하였고, DeepResearch Bench II에서 정보 재현 (information recall) 및 분석 부문 1위를 차지하며 최고 종합 점수 (61.95%)를 기록했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

DuMate-DeepResearch: 재귀적 검색 및 루브릭 기반 추론을 갖춘 감사 가능한 멀티 에이전트 시스템

요약

핵심 포인트

댓글