과학적 과정 보상: 에이전트 데이터 분석을 위한 프로세스 레벨 보상 모델링

프로세스 보상 모델 (PRMs) 은 수학 등 정적 도메인 내에서 대형 언어 모델 (LLM) 의 추론 능력을 향상시키는 데 괄목할 만한 성공을 거두었습니다. 그러나 동적 데이터 분석 작업에서의 잠재력은 아직 충분히 탐구되지 않았습니다. 본 연구에서는 먼저 일반 도메인 PRM 이 데이터 분석 에이전트를 감독하는 데 어려움을 겪는다는 사실을 보여주는 실증 연구를 제시합니다. 구체적으로, 이들은 인터프리터 예외를 발생시키지 않으면서도 잘못된 결과를 초래하는 논리적 결함이나 침묵하는 오류 (silent errors) 를 감지하지 못하며, 필수적인 시행착오 탐색을 착근 실패 (grounding failures) 로 오인하여 탐구 행동을 잘못 처벌합니다. 이 격차를 해소하기 위해 우리는 환경 인식형 생성 프로세스 보상 모델인 DataPRM 을 소개합니다. DataPRM 은 (1) 능동적 검증자로서 환경을 자율적으로 상호작용하여 중간 실행 상태를 조사하고 침묵하는 오류를 드러낼 수 있으며, (2) 수정 가능한 착근 오류와 회복 불가능한 실수를 구별하는 반성 인식형 삼원 보상 전략을 사용합니다. 우리는 다양성 기반 궤적 생성과 지식 강화 단계별 주석을 통해 DataPRM 의 고품질 학습 인스턴스 8,000 개 이상을 구축할 수 있는 확장 가능한 파이프라인을 설계했습니다. 실험 결과, DataPRM 은 ScienceAgentBench 에서 7.21%, DABStep 에서 11.28% 의 향상을 보여 Best-of-N 추론 시 강력한 베이스라인을 능가합니다. 특히 파라미터 40 억 개로만 DataPRM 은 강력한 베이스라인을 제치고 다양한 테스트 타임 스케일링 (Test-Time Scaling) 전략에 걸쳐 견고한 일반화 능력을 보입니다. 또한, DataPRM 을 강화학습 (RL) 에 통합하면 결과 보상 베이스라인 대비 상당한 향상을 이루어 DABench 에서 78.73%, TableBench 에서 64.84% 의 성적을 달성하여 프로세스 보상 감독의 효과성을 입증합니다. 코드는 https://github.com/zjunlp/DataMind 에서 제공됩니다.

Insights

과학적 과정 보상: 에이전트 데이터 분석을 위한 프로세스 레벨 보상 모델링

요약

핵심 포인트

댓글

고스트 텍스트(Ghost-Text)에서 글래스 텍스트(Glass-Text)로: AI 간 통신을 위한 감사 가능한 언어를 향하여

Walmart 분기 실적 프리뷰: 알아야 할 사항

실적 프리뷰: Ross Stores의 보고서에서 기대할 수 있는 것

미국 메모리 주식의 하락, 투자자들에게 새로운 매수 기회 제공할 수도

고스트 텍스트(Ghost-Text)에서 글래스 텍스트(Glass-Text)로: AI 간 통신을 위한 감사 가능한 언어를 향하여

Walmart 분기 실적 프리뷰: 알아야 할 사항

실적 프리뷰: Ross Stores의 보고서에서 기대할 수 있는 것

미국 메모리 주식의 하락, 투자자들에게 새로운 매수 기회 제공할 수도