arXiv논문2026. 05. 27. 12:03

불확실성 하에서의 에이전트 오케스트레이션 학습

요약

이질적인 에이전트 환경에서 신뢰도, 비용, 불확실성을 고려하여 최적의 위임 결정을 내리는 적응형 오케스트레이션 연구를 다룹니다. 제안된 BOT-Orch 프레임워크는 에이전트 출력 분포를 OT 거리로 정규화하여 밴딧 문제로 해결하며, 기존 방식보다 우수한 성능을 입증했습니다.

핵심 포인트

에이전트의 신뢰도와 출력 분포 불확실성을 명시적으로 모델링
오케스트레이션을 밴딧 문제로 재구성한 BOT-Orch 프레임워크 제안
OT 거리를 활용한 경량화된 분포 정렬 및 정규화 방식 도입
표준 밴딧 및 휴리스틱 베이스라인 대비 우수한 성능 입증

이질적인 에이전트(heterogeneous agents)의 적응형 오케스트레이션(adaptive orchestration)은 신뢰도, 비용, 응답 품질이 각기 다른 전문화된 AI 모델을 조정하는 것과 같이, 불확실하고 진화하는 에이전트 행동 하에서 순차적인 위임 결정(sequential delegation decisions)을 내리는 것을 필요로 합니다. 에이전트 오케스트레이션에 관한 기존 연구들은 성능이나 비용에 초점을 맞추고 있지만, 에이전트의 신뢰도 및 출력 분포(output distributions)의 불확실성은 일반적으로 오케스트레이션 수준에서 명시적으로 모델링되지 않습니다. 본 연구에서는 불확실성 하에서의 이질적 에이전트 적응형 오케스트레이션 문제를 연구하며, 여기서 메타 컨트롤러(meta-controller)는 신뢰도, 비용 및 불확실성을 고려하여 에이전트에게 언제 위임할지를 결정해야 합니다. 우리는 오케스트레이션을 에이전트에 대한 밴딧 문제(bandit problem)로 재구성하고, 에이전트 출력 분포와 작업별 참조 분포(task-specific reference distributions) 사이의 OT 거리(OT distances)로 정규화하는 경량 프레임워크인 BOT-Orch를 제안합니다. 우리는 정규화된 오케스트레이션이 표준 가정 하에서 $\mathcal{O}(\sqrt{T})$ 후회(regret)를 누리며, 평균 보상은 동일하지만 분포 정렬(distributional alignment)이 서로 다른 에이전트들 사이에서 증명 가능한 선호 순위(preference ordering)를 유도함을 보여줍니다. 실험적으로, 우리는 BOT-Orch가 이질적이고 비독립 항등 분포(non-i.i.d.)인 에이전트 행동을 가진 합성적이지만 적대적인 작업 할당(task allocation) 설정에서 표준 밴딧 및 휴리스틱 베이스라인(heuristic baselines)보다 우수한 성능을 보임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

불확실성 하에서의 에이전트 오케스트레이션 학습

요약

핵심 포인트

댓글