arXiv논문2026. 05. 26. 12:52

VeriTrace: 심층 연구 에이전트를 위한 진화하는 멘탈 모델 (Mental Models)

요약

심층 연구 에이전트의 정보 오염과 오류 전파 문제를 해결하기 위해 명시적인 규제 루프를 도입한 VeriTrace 프레임워크를 제안합니다. 인지 그래프를 통해 에이전트의 멘탈 모델을 현실과 정렬하며, 벤치마크 테스트에서 기존 베이스라인 대비 유의미한 성능 향상을 입증했습니다.

핵심 포인트

에이전트의 중간 표현을 위한 명시적 규제 루프 제안
해석적 업데이트, 편차 피드백, 스키마 수정의 3단계 루프 식별
인지 그래프 기반의 VeriTrace 프레임워크 구현
DeepResearch Bench 및 DeepConsult에서 성능 개선 입증

심층 연구 에이전트(Deep research agents)는 방대하고 상호 의존적이며 도처에 불확실성이 존재하는 정보에 직면합니다. 기존 시스템들은 진화하는 중간 표현(intermediate representations)이 어떤 모습이어야 하는지를 탐구하지만, 그 진화 과정을 LLM(Large Language Model)의 암묵적인 추론(implicit reasoning)에 맡겨둡니다. 명시적인 규제(explicit regulation)가 없다면, 중간 계층은 품질이 뒤섞인 정보에 의해 쉽게 오염되고 그 의존성을 따라 오류를 전파하게 되므로, 모델의 규모(model scale)가 결여된 규제를 대신하는 상황이 빈번하게 발생합니다. 우리는 에이전트의 멘탈 모델(mental model)이 작업 이해(task understanding)를 현실과 지속적으로 정렬하는 명시적인 피드백을 통해 진화해야 한다고 주장하며, 세 가지 규제 루프(regulatory loops)인 해석적 업데이트(interpretive update), 편차 피드백(deviation feedback), 스키마 수정(schema revision)을 식별합니다. 우리는 이 세 가지 루프를 명시적으로 구현하는 인지 그래프(cognitive-graph) 프레임워크인 VeriTrace를 통해 이를 실현합니다. 동일한 Qwen3.5-27B 백본(backbone)을 사용했을 때, VeriTrace는 DeepResearch Bench (DRB) Insight에서 가장 강력한 매칭 베이스라인 대비 4.22 pp(전체적으로 1.49 pp)를 개선하였으며, DeepConsult의 전체 승률(Overall win rate)에서 5.9 pp를 개선했습니다. Config-DeepSeek를 사용하면 DRB에서 가장 강력한 재현 가능한 오픈 소스(open-source) 결과를 달성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

VeriTrace: 심층 연구 에이전트를 위한 진화하는 멘탈 모델 (Mental Models)

요약

핵심 포인트

댓글