arXiv논문2026. 06. 12. 15:43

다중 에이전트 오케스트레이션을 위한 보상 모델링

요약

본 논문은 다중 에이전트 시스템(MAS)의 오케스트레이션을 위한 새로운 자기 지도 학습 프레임워크인 OrchRM을 제안합니다. OrchRM은 인간 주석 없이도 중간 아티팩트를 활용하여 보상 모델 훈련에 필요한 승리-패배 쌍을 구성합니다. 이는 기존 방식 대비 효율성과 성능 면에서 큰 개선을 가져와, MAS 테스트 및 오케스트레이터 훈련의 확장성을 높입니다.

핵심 포인트

OrchRM은 인간 주석 없이 오케스트레이션 품질 평가가 가능합니다.
중간 아티팩트를 활용하여 보상 모델 훈련에 필요한 승리-패배 쌍을 구성합니다.
기존 방식 대비 토큰 사용 효율성을 최대 10배 개선했습니다.
오케스트레이션 수준에서 직접 작동하여 확장성이 높습니다.

대규모 언어 모델(LLMs) 기반의 다중 에이전트 시스템(MAS)은 전문화된 에이전트를 조정하기 위해 효과적인 오케스트레이션이 필요하지만, 이러한 오케스트레이터를 훈련하는 것은 제한적인 감독과 높은 계산 비용으로 인해 방해를 받습니다. 우리는 인간 주석 없이 오케스트레이션 품질을 평가하기 위한 자기 지도 학습 프레임워크인 Orchestration Reward Modeling (OrchRM)을 제안합니다. OrchRM은 다중 에이전트 실행에서 나오는 중간 아티팩트를 활용하여 Bradley-Terry 보상 모델 훈련을 위한 승리-패배 쌍(win-lose pairs)을 구성합니다. 비용이 많이 드는 하위 에이전트 롤아웃에 의존하는 기존 MAS 테스트 시간 스케일링 및 오케스트레이터 훈련 프레임워크와 달리, OrchRM은 오케스트레이션 수준에서 직접 작동하여 효율적이고 고성능의 보상 기반 오케스트레이터 훈련 및 MAS 테스트 시간 스케일링을 가능하게 합니다. OrchRM은 토큰 사용 측면에서 최대 10배까지 훈련 효율성을 개선하는 동시에, 정확도 면에서 MAS 테스트 시간 스케일링 성능을 최대 8%까지 향상시킵니다. 이러한 이점들은 수학적 추론, 웹 기반 질의응답, 다단계 추론을 포함한 여러 도메인에 걸쳐 일관되게 전이되어, 오케스트레이션 수준의 보상 모델링이 견고한 다중 에이전트 오케스트레이션을 위한 확장 가능한 방향임을 입증합니다. 코드는 https://github.com/Wang-ML-Lab/OrchRM에서 이용 가능할 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

다중 에이전트 오케스트레이션을 위한 보상 모델링

요약

핵심 포인트

댓글