본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 29. 01:56

과학적 과정 보상: 에이전트 데이터 분석을 위한 프로세스 레벨 보상 모델링

요약

본 연구는 정적인 수학 도메인에 국한된 기존 프로세스 보상 모델(PRMs)이 동적 데이터 분석 작업의 복잡성을 다루는 데 한계가 있음을 지적합니다. 이를 해결하기 위해 환경 인식형 생성 프로세스 보상 모델인 DataPRM을 제안하며, 이는 능동적 검증과 반성 인식형 삼원 보상 전략을 통해 침묵하는 오류와 수정 가능한 착근 오류를 효과적으로 감지합니다. 실험 결과, DataPRM은 다양한 데이터 분석 벤치마크에서 기존의 강력한 베이스라인을 크게 능가하는 성능 향상을 보여 프로세스 보상 감독의 높은 효과성을 입증했습니다.

핵심 포인트

  • 기존 PRMs는 정적 도메인에 강하지만, 동적 데이터 분석 작업에서의 논리적 결함이나 침묵하는 오류 감지에는 취약하다.
  • 제안된 DataPRM은 능동적 검증자 역할을 수행하여 환경과 상호작용하며 숨겨진 오류를 드러낼 수 있다.
  • DataPRM은 수정 가능한 착근 오류와 회복 불가능한 실수를 구별하는 반성 인식형 삼원 보상 전략을 사용한다.
  • DataPRM은 40억 개의 파라미터만으로도 강력한 베이스라인을 능가하며, 강화학습(RL) 통합 시 데이터 분석 벤치마크에서 높은 성능 향상을 보인다.

프로세스 보상 모델 (PRMs) 은 수학 등 정적 도메인 내에서 대형 언어 모델 (LLM) 의 추론 능력을 향상시키는 데 괄목할 만한 성공을 거두었습니다. 그러나 동적 데이터 분석 작업에서의 잠재력은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 먼저 일반 도메인 PRM 이 데이터 분석 에이전트를 감독하는 데 어려움을 겪는다는 사실을 보여주는 실증 연구를 제시합니다. 구체적으로, 이들은 인터프리터 예외를 발생시키지 않으면서도 잘못된 결과를 초래하는 논리적 결함이나 침묵하는 오류 (silent errors) 를 감지하지 못하며, 필수적인 시행착오 탐색을 착근 실패 (grounding failures) 로 오인하여 탐구 행동을 잘못 처벌합니다. 이 격차를 해소하기 위해 우리는 환경 인식형 생성 프로세스 보상 모델인 DataPRM 을 소개합니다. DataPRM 은 (1) 능동적 검증자로서 환경을 자율적으로 상호작용하여 중간 실행 상태를 조사하고 침묵하는 오류를 드러낼 수 있으며, (2) 수정 가능한 착근 오류와 회복 불가능한 실수를 구별하는 반성 인식형 삼원 보상 전략을 사용합니다. 우리는 다양성 기반 궤적 생성과 지식 강화 단계별 주석을 통해 DataPRM 의 고품질 학습 인스턴스 8,000 개 이상을 구축할 수 있는 확장 가능한 파이프라인을 설계했습니다. 실험 결과, DataPRM 은 ScienceAgentBench 에서 7.21%, DABStep 에서 11.28% 의 향상을 보여 Best-of-N 추론 시 강력한 베이스라인을 능가합니다. 특히 파라미터 40 억 개로만 DataPRM 은 강력한 베이스라인을 제치고 다양한 테스트 타임 스케일링 (Test-Time Scaling) 전략에 걸쳐 견고한 일반화 능력을 보입니다. 또한, DataPRM 을 강화학습 (RL) 에 통합하면 결과 보상 베이스라인 대비 상당한 향상을 이루어 DABench 에서 78.73%, TableBench 에서 64.84% 의 성적을 달성하여 프로세스 보상 감독의 효과성을 입증합니다. 코드는 https://github.com/zjunlp/DataMind 에서 제공됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0