arXiv논문2026. 06. 04. 13:17

자기 진화형 LLM 에이전트를 위한 지속적 경험 내재화의 재고

요약

LLM 에이전트의 지속적 학습을 위한 경험 내재화 과정을 분석한 연구입니다. 다중 반복 학습 시 발생하는 능력 붕괴 문제를 해결하기 위해 경험의 입도, 주입 패턴, 내재화 체계라는 세 가지 핵심 차원을 제시합니다.

핵심 포인트

원칙 수준의 경험이 사례 수준보다 지속성이 높음
단계별 주입 방식이 전역 주입보다 성능이 우수함
오프-폴리시 문맥 증류가 더 안정적인 학습 신호 제공
자기 진화형 LLM 설계를 위한 구체적 가이드 제시

경험 내재화 (Experience internalization)는 과거 상호작용으로부터 얻은 문맥적 경험을 재사용 가능한 파라미터 기반 능력 (parametric capability)으로 변환하며, 이는 대규모 언어 모델 (LLMs)의 지속적 학습 (continual learning)을 향한 유망한 경로를 제공합니다. 기존 연구들이 주로 단일 반복 전이 (single-iteration transfer)에 집중해 온 반면, 우리는 다중 반복 경험 학습 (multi-iteration experience learning) 상황에서 기존 방식들이 복합적인 개선이 아닌 점진적인 능력 붕괴 (capability collapse)를 겪는다는 것을 발견했습니다. 우리는 경험 내재화의 세 가지 핵심 차원을 통해 이러한 실패를 체계적으로 조사합니다: (1) 경험 입도 (Experience Granularity): 우리는 원칙 수준 (principle-level)의 경험이 사례 수준 (instance-level)의 경험보다 더 지속적이라는 것을 발견했습니다. 이는 원칙 수준의 경험이 궤적 특화된 (trajectory-specific) 세부 사항으로부터 전이 가능한 전략을 효과적으로 추상화하기 때문입니다. (2) 경험 주입 패턴 (Experience Injection Pattern): 우리의 분석에 따르면, 단계별 주입 (step-wise injection)은 경험을 중간 의사결정 상태 (intermediate decision states)와 정렬함으로써 전역 주입 (global injection)보다 훨씬 뛰어난 성능을 보이며, 이는 장기적 도구 사용 (long-horizon tool use)에 있어 매우 중요한 특성입니다. (3) 내재화 체계 (Internalization Regime): 우리는 고품질 교사 궤적 (teacher trajectories)에 대한 오프-폴리시 문맥 증류 (off-policy context-distillation)가 온-폴리시 문맥 증류 (on-policy context-distillation)보다 실질적으로 더 안정적인 학습 신호를 제공함을 입증했습니다. 온-폴리시 방식은 학생 모델이 유도한 결함이 있는 상태에 대한 국소적 수정 (local corrections)에 의해 본질적으로 제한됩니다. 이러한 통찰들을 종합하여, 우리는 안정적이고 지속 가능한 경험 내재화를 위한 단순하면서도 강력한 레시피를 도출하였으며, 이는 자기 진화하고 지속적으로 학습하는 LLM을 설계하기 위한 구체적인 가이드를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

자기 진화형 LLM 에이전트를 위한 지속적 경험 내재화의 재고

요약

핵심 포인트

댓글