점들을 연결하기 (Connect the Dots): 강화학습 (RL)을 통한 교차 도메인 일반화를 갖춘 장기 수명 에이전트용 LLM 학습
요약
장기 수명 에이전트의 메타 능력인 '점들을 연결하기(CoD)'를 학습시키기 위한 새로운 강화학습(RL) 프레임워크를 제안합니다. 에이전트가 경험을 통해 컨텍스트를 업데이트하며 미래 과업의 성능을 높이는 메커니즘을 연구했습니다.
핵심 포인트
- CoD 프레임워크를 통한 LLM 기반 에이전트의 지속적 학습 구조 제안
- 과업 해결과 컨텍스트 업데이트가 교차되는 엔드투엔드 RL 알고리즘 설계
- GRPO 스타일의 RL을 활용한 미세한 신용 할당(Credit Assignment) 구현
- 도메인 내 및 도메인 간 교차 일반화(OOD) 성능 검증
본 연구는 장기 수명 에이전트(long-lifecycle agents)에게 요구되는 메타 능력인 "점들을 연결하기 (Connect the Dots, CoD)"를 위해 대규모 언어 모델 (LLMs)을 학습시키는 일반적인 프레임워크를 제시합니다. LLM 기반 AI 에이전트가 환경에 배포됨에 따라, 에이전트는 환경을 지속적으로 탐색하고, 자신의 경험으로부터 학습하며, 환경에 대한 자신의 컨텍스트 (context)를 반복적으로 자기 업데이트함으로써 긴 시퀀스의 과업을 해결하며, 이를 통해 업데이트된 컨텍스트를 조건으로 하는 미래 과업에서 점진적으로 더 나은 성능을 달성합니다. CoD 프레임워크의 주요 구성 요소는 다음과 같습니다: (1) 과업 해결 (solve-task) 에피소드와 컨텍스트 업데이트 (update-context) 에피소드가 교차되는 긴 롤아웃 (rollout) 시퀀스를 가진 엔드투엔드 강화학습 (RL)을 위한 알고리즘 설계 및 인프라; (2) 학습 과정에서 LLM의 목표 메타 능력을 유도하고 장려하며, 평가 과정에서 진행 상황을 충실히 측정하기 위한 과업 및 환경. 우리는 미세한 신용 할당 (credit assignment)을 포함한 GRPO 스타일의 RL 알고리즘뿐만 아니라, (도메인 특화된 LLM 능력이나 표준적인 과업별 RL이 아닌) 목표 메타 능력에 맞춤화된 과업 및 환경을 포함하여 CoD 프레임워크의 개념 증명 (proof-of-concept) 구현을 제시합니다. 실증적 결과는 CoD 설정에서 엔드투엔드 RL 학습의 효능을 검증하며, 유도된 메타 능력이 학습 도메인 내에서, 서로 다른 도메인 간에, 그리고 CoD에서 Ralph-loop 설정으로의 분포 외 일반화 (out-of-distribution generalization)를 달성할 수 있는 잠재력을 보여줍니다. CoD에 대한 우리의 연구는 이전의 여러 연구 흐름을 연결하며, LLM 및 AI 에이전트를 발전시키기 위한 새로운 기회를 열어줍니다. 추가적인 연구와 응용을 촉진하기 위해, 우리는 \url{https://github.com/agentscope-ai/Trinity-RFT/tree/research/cod/examples/research_cod}에 구현체를 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기