arXiv논문2026. 06. 09. 12:49

프로세스 수준 피드백 하에서의 심층 연구 에이전트(Deep Research Agents)에 대한 다회차 평가

요약

심층 연구 에이전트(DRA)의 다회차 개선 능력을 평가하기 위해 자기 성찰 및 프로세스 수준 피드백 설정을 통한 연구를 수행했습니다. 연구 결과, 단순 자기 성찰은 효과가 미미한 반면 프로세스 수준 피드백은 점수를 유의미하게 향상시키지만, 후속 회차에서 기존 성과가 퇴보하는 한계가 발견되었습니다.

핵심 포인트

자기 성찰(Self-reflection) 기반의 보고서 수정은 개선 효과가 미미함
프로세스 수준 피드백은 점수를 약 8-15포인트 상승시키는 효과가 있음
피드백 이득이 복리로 쌓이지 않고 오히려 기존 성과가 퇴보하는 현상 발생
표적화된 지침에도 불구하고 신뢰할 수 있는 다회차 개선은 여전히 어려운 과제임

심층 연구 에이전트(Deep Research Agents, DRAs)를 위한 기존 벤치마크들은 단발성(single-shot) 출력만을 평가하며, 다음과 같은 핵심 질문을 간과하고 있습니다: DRAs는 피드백의 안내를 받을 때 보고서를 개선할 수 있는가? 이를 조사하기 위해, 우리는 두 가지 피드백 설정 하에서 DRAs에 대한 다회차 평가(multi-turn evaluation)를 수행합니다. 첫 번째는 에이전트가 외부의 진단 신호 없이 스스로 보고서를 수정하는 자기 성찰(self-reflection) 설정이며, 두 번째는 에이전트가 연구 전략의 공백을 겨냥한 지침을 받는 프로세스 수준 피드백(process-level feedback) 설정입니다. 프로세스 수준 피드백을 가능하게 하기 위해, 우리는 충족된 루브릭(rubric) 기준과 충족되지 않은 기준의 패턴을 분석하여 연구 프로세스의 공백을 추론하는 방법론인 연구 공백 추론(Research Gap Inference, RGI)을 설계했습니다. 우리의 분석은 세 가지 주요 발견을 제시합니다: (i) 자기 성찰(self-reflection) 하에서 에이전트는 루브릭 기준을 반영하는 비율과 퇴보하는 비율이 거의 동일하여, 순 개선 효과가 미미합니다; (ii) 단 한 번의 프로세스 수준 피드백은 정규화된 점수를 약 $8$-$15$포인트 상승시키고 약 $35$-$40%$의 반영률을 기록하며 상당한 이득을 가져옵니다; (iii) 이러한 이득은 후속 회차에서 복리로 쌓이지 않는데, 이는 에이전트가 남은 공백을 해결하기 위해 전체 보고서를 다시 작성할 때 이전에 충족되었던 기준의 최대 $24%$까지 퇴보하기 때문입니다. 표적화된 지침(targeted guidance)이 있음에도 불구하고, 우리가 평가한 DRA 아키텍처들에게 신뢰할 수 있는 다회차 개선은 여전히 달성하기 어려운 과제로 남아 있습니다. 우리의 코드와 결과는 https://github.com/sabharwalrishabh/Multi-Turn-Evaluation-of-DRAs 에서 공개적으로 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

프로세스 수준 피드백 하에서의 심층 연구 에이전트(Deep Research Agents)에 대한 다회차 평가

요약

핵심 포인트

댓글