본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 10. 10:34

분할과 협력: 교차 에이전트 학습 신호를 이용한 역할 분해형 다중 에이전트 LLM 학습

요약

단일 모델이 검색과 생성을 동시에 수행할 때 발생하는 신용 할당 및 정책 충돌 문제를 해결하기 위해 DAC 프레임워크를 제안합니다. 검색기와 생성기를 분리하여 역할별 학습 신호를 교환함으로써 다단계 추론 성능을 향상시킵니다.

핵심 포인트

  • 검색과 생성을 분리하여 역할 분해형 다중 에이전트 학습 구현
  • 유보 신호를 활용한 검색 에이전트의 신용 할당 문제 개선
  • 하드-포지티브 증거 증강을 통한 생성기 강건성 확보
  • LoRA를 활용한 파라미터 효율적인 멀티 에이전트 학습

다단계 추론 (multi-step reasoning)을 수행하는 현대의 언어 에이전트 (language agents)들은 지식 집약적인 질의응답 (knowledge-intensive question answering) 분야에서 강력한 성능을 보여주었습니다. 그러나 기존의 방식들은 일반적으로 증거 습득 (evidence acquisition)과 답변 생성 (answer generation)을 단일 정책 (single policy) 내에 결합합니다. 이는 하나의 모델이 잠재적으로 충돌할 수 있는 여러 역할을 수행하도록 강제하며, 정책 공간 (policy space)에서의 조합 폭발 (combinatorial explosion)을 유도하고 효율적인 탐색 (exploration)을 방해합니다. 또한 학습 과정에서 신용 할당 (credit assignment) 문제를 야기합니다. 즉, 충분한 증거를 검색하는 탐색 행동 (search action)이 수행되었음에도 불구하고 생성이 실패할 경우 벌점을 받을 수 있으며, 그 반대의 경우도 마찬가지입니다. 본 논문에서는 에이전트 기반 검색을 두 개의 협력적인 하위 작업 (subtasks)으로 나누고, 각각을 역할별 학습 신호 (role-specific learning signals)로 학습된 전용 에이전트가 처리하는 역할 분해형 다중 에이전트 학습 프레임워크인 DAC (Divide and Cooperate)를 제안합니다. 생성기 (generator)는 답변 생산자이자 증거 충분성 검증기 (evidence sufficiency verifier)라는 이중 역할을 수행하며, 검색된 증거가 불충분할 경우 답변을 유보 (abstaining)합니다. 이 유보 신호 (abstention signal)는 검색 에이전트의 보상 (reward)에 통합되어, 신용 할당을 개선하는 구조화된 교차 에이전트 학습 신호를 제공합니다. 반대로, 검색기 (searcher)는 하드-포지티브 증거 증강 (hard-positive evidence augmentation)을 통해 생성기에게 다양하고 도전적인 증거 환경을 노출시켜 생성기의 강건성 (robustness)을 향상시킵니다. 일반 및 멀티홉 질의응답 (multi-hop QA) 벤치마크에서의 실험 결과, 공유 백본 (shared backbone) 상에 파라미터 효율적인 LoRA 모듈을 통해 구현된 DAC가 단일 모델의 전체 미세 조정 (full fine-tuning)에 의존하는 기존 베이스라인 모델들에 비해 강력한 성능을 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0