arXiv논문2026. 06. 10. 10:33

Role-Agent: 이중 역할 진화를 통한 LLM 에이전트의 부트스트래핑 (Bootstrapping)

요약

Role-Agent는 단일 LLM이 에이전트와 환경 역할을 동시에 수행하며 공동 진화하는 프레임워크입니다. WIA와 AIW 구성 요소를 통해 환경 인식 추론을 강화하고 실패 패턴을 분석하여 훈련 데이터를 재형성합니다. 실험 결과 기존 베이스라인 대비 평균 4% 이상의 성능 향상을 입증했습니다.

핵심 포인트

단일 LLM을 에이전트와 환경으로 동시 활용하는 부트스트래핑 프레임워크 제안
WIA를 통한 미래 상태 예측 및 프로세스 보상 기반의 추론 능력 강화
AIW를 통한 실패 모드 분석 및 타겟팅된 훈련 데이터 분포 재형성
다양한 벤치마크에서 기존 모델 대비 평균 4% 이상의 성능 향상 달성

대규모 언어 모델 (LLM) 에이전트가 복잡한 작업에서 강력한 성능을 입증해 왔지만, 이들의 학습은 종종 비효율적인 상호작용 피드백과 정적인 훈련 환경으로 인해 제한되며, 이는 더 넓은 일반화 (Generalization)를 방해합니다. 이러한 한계를 해결하기 위해, 본 논문은 단일 LLM을 에이전트와 환경 모두로 동시에 기능하게 하여 부트스트랩된 공동 진화 (Co-evolution)를 가능하게 하는 프레임워크인 Role-Agent를 소개합니다. Role-Agent는 두 가지 시너지 구성 요소인 World-In-Agent (WIA)와 Agent-In-World (AIW)로 구성됩니다. WIA에서 LLM은 에이전트 역할을 수행하며 각 행동 이후의 미래 상태를 예측합니다. 이후 예측된 상태와 실제 상태 사이의 정렬 (Alignment)이 프로세스 보상 (Process reward)으로 사용되어, 환경을 인식하는 추론 (Environment-aware reasoning)을 장려합니다. AIW에서 LLM은 실패한 궤적 (Trajectories)으로부터 실패 모드 (Failure modes)를 분석하고 유사한 실패 패턴을 가진 작업을 검색하여, 타겟팅된 연습을 위해 훈련 데이터 분포를 재형성합니다. 여러 벤치마크에 대한 실험 결과, Role-Agent는 성능을 일관되게 향상시켜 강력한 베이스라인 (Baselines) 대비 평균 4% 이상의 이득을 얻었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Role-Agent: 이중 역할 진화를 통한 LLM 에이전트의 부트스트래핑 (Bootstrapping)

요약

핵심 포인트

댓글