arXiv논문2026. 05. 29. 12:55

LLM 기반 멀티 에이전트 프롬프트 최적화에서의 시간적 및 구조적 신용 할당 통합

요약

멀티 에이전트 시스템(MAS)의 최적화 문제를 해결하기 위해 시간적 및 구조적 신용 할당 방식을 제안합니다. 상태 공간 병목과 정적 역할 정책을 통해 오류 신호를 분리하고, 이를 기반으로 한 블록 좌표 하강 알고리즘을 통해 효율적인 프롬프트 최적화를 구현합니다.

핵심 포인트

MAS의 이산적·미분 불가능한 특성으로 인한 최적화 난제 해결
상태 공간 병목을 통한 시간적 신용 할당 방식 도입
정적 역할 정책을 활용한 에이전트별 구조적 신용 할당
언어화된 블록 좌표 하강 알고리즘을 통한 반복적 개선

멀티 에이전트 시스템 (Multi-Agent Systems, MAS)은 대규모 언어 모델 (Large Language Models, LLM)이 협업적 상호작용을 통해 복잡한 추론 작업을 해결할 수 있도록 지원하지만, 계산 그래프 (computation graph)의 이산적이고 미분 불가능한 특성과 전역적 감독 신호 (global supervisory signals)의 희소성으로 인해 그 역학을 최적화하는 것은 여전히 매우 어려운 과제로 남아 있습니다. 기존의 블랙박스 최적화 도구 (black-box optimizers)는 궤적 수준의 실패 (trajectory-level failure)를 특정 로컬 구성 요소의 탓으로 돌리는 데 어려움을 겪으며, 이는 비효율적이고 분산이 큰 탐색 (high-variance exploration)으로 이어집니다. 우리는 다루기 쉬운 MAS 최적화를 위해서는 오류 신호를 분리할 수 있는 구조적 귀납 편향 (structural inductive biases)이 필요하다고 주장합니다. 우리는 목적 함수를 두 가지 축을 따라 분해하는 시간적 및 구조적 신용 할당 (temporal and structural credit assignment)을 제안합니다: (i) 상태 공간 병목 (state-space bottlenecks)을 사용하여 중요한 라운드를 식별하는 시간적 신용 (temporal credit), 그리고 (ii) 에이전트의 기여도를 격리하기 위해 정적 역할 정책 (stationary role policies)을 사용하는 구조적 신용 (structural credit)입니다. 이러한 분해된 신호를 활용하여, 우리는 반복적인 개선을 위한 이산적이고 언어화된 블록 좌표 하강 (discrete, verbalized block coordinate descent) 알고리즘을 도입합니다. 이 알고리즘은 무차별적인 전역 업데이트 대신, LLM이 생성한

AI 자동 생성 콘텐츠

원문 바로가기

LLM 기반 멀티 에이전트 프롬프트 최적화에서의 시간적 및 구조적 신용 할당 통합

요약

핵심 포인트

댓글