arXiv논문2026. 06. 04. 12:05

행동하며 배우기: 온라인 평생 학습 에이전트를 위한 기술 강화 테스트 시간 공동 진화 프레임워크

요약

온라인 평생 학습 에이전트의 성능을 높이기 위한 2단계 강화학습 프레임워크인 LifeSkill을 제안합니다. 검증자 가이드 기술 학습과 온라인 기술 내재화 방식을 통해 에이전트가 테스트 시간 피드백을 파라미터에 직접 내재화하도록 돕습니다.

핵심 포인트

LifeSkill: 기술 강화 테스트 시간 공동 진화 프레임워크 제안
검증자 가이드 기술 학습을 통한 유용한 기술 생성 유도
온라인 기술 내재화로 컨텍스트 비대화 문제 해결
LifelongAgentBench 실험 결과 성능 7% 향상 입증

평생 학습 (Lifelong learning)은 동적이고 상호작용적인 환경에서 작동하는 대규모 언어 모델 (LLM) 에이전트에게 필수적입니다. 그러나 장기적 과업 (long-horizon tasks)을 수행하는 기존의 평생 학습 에이전트들은 일반적으로 추론 과정에서 정적인 파라미터를 사용하여 이산적인 기술 (skill) 또는 과거 경험을 검색하는 방식에 의존하며, 이는 인간 학습자처럼 테스트 시간 (test-time) 피드백을 지속적으로 내재화하는 것을 방해합니다. 이러한 격차를 해소하기 위해, 우리는 온라인 평생 학습 에이전트를 위한 2단계 강화학습 (reinforcement learning) 프레임워크인 기술 강화 테스트 시간 공동 진화 (Skill-enhanced Test-Time Co-Evolution, \texttt{LifeSkill})를 제안합니다. 구체적으로, 우리는 기술 추출을 위한 직접적인 감독이 부족한 문제를 해결하기 위해 검증자 가이드 기술 학습 (Verifier-Guided Skill Learning)을 설계하였습니다. 이는 여러 기술 조건부 정책 롤아웃 (skill-conditioned policy rollouts)의 평균 검증자 성공률에 따라 후보 기술에 보상을 부여함으로써, 모델이 단순히 텍스트상으로 그럴듯한 기술이 아니라 과업 해결에 유용한 기술을 생성하도록 유도합니다. 나아가, 우리는 기술 조건부 궤적 (skill-conditioned trajectories)을 보상 신호로 변환하여 테스트 시간 상호작용 중에 정책 모델을 지속적으로 개선하는 온라인 기술 내재화 (Online Skill Internalization)를 도입합니다. 이를 통해 에이전트는 경험 검색으로 인한 컨텍스트 비대화 (context bloat)를 피하면서 추론 능력을 파라미터에 직접 내재화할 수 있습니다. LifelongAgentBench에서의 실험 결과, LifeSkill은 기존 평생 학습 에이전트 베이스라인들과 비교했을 때 평균 성능을 7 절대 포인트 향상시켰음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

행동하며 배우기: 온라인 평생 학습 에이전트를 위한 기술 강화 테스트 시간 공동 진화 프레임워크

요약

핵심 포인트

댓글