경량화된 경험적 잠재 메모리를 통한 지속적 자기 개선 (Continual Self-Improvement with Lightweight
요약
LLM이 추론 과정에서 생성한 흔적을 지속 가능한 지식으로 전환하기 위해 경량화된 잠재 메모리를 활용하는 연구를 제안합니다. 모델 파라미터의 0.001% 수준인 소프트 프롬프트 메모리를 통해 파괴적 망각 없이 온라인으로 성능을 지속 개선할 수 있습니다.
핵심 포인트
- 추론 시간 연산을 재사용 가능한 잠재 메모리로 증류하는 방법 제안
- 가공되지 않은 추론 흔적 기반의 ICL 한계 극복
- 모델 파라미터의 0.001%만 사용하는 극도로 효율적인 경량화 방식
- 수학적 추론 벤치마크에서 제로샷 및 ICL 베이스라인을 크게 상회
대규모 언어 모델(Large language models)은 추론 시간 연산(inference-time compute)을 확장함으로써 강력한 추론 성능을 달성하지만, 이 과정에서 생성된 풍부하고 자기 생성적인 추론 흔적(reasoning traces)을 버리는 근본적인 무상태성(stateless)을 유지하고 있습니다. 우리는 모델이 외부의 감독이나 미래 데이터에 대한 접근 없이도, 이러한 경험으로부터 온라인으로 학습하여 일시적인 연산(추론 흔적)을 지속적이고 재사용 가능한 지식으로 전환할 수 있는지 조사합니다. 우리는 가공되지 않은 추론 흔적에 대한 인컨텍스트 학습 (In-Context Learning (ICL))이 일반화에 실패한다는 것을 보여주며, 이는 토큰 수준 재사용의 근본적인 한계를 반영합니다. 즉, 개별 흔적은 정제(예: 자기 성찰 (self-reflection))를 거친 후에도 전이에 필요한 추상화 능력이 부족합니다. 이와 대조적으로, 최근의 비지도 강화학습 (unsupervised reinforcement learning) 연구에서 영감을 얻어, 자기 생성된 테스트 시간 신호(다수결 투표 (majority voting))를 보상으로 사용하는 경량화된 인스턴스별 학습이 상당한 이득을 가져오며, 종종 전체 데이터셋 오프라인 학습을 능가한다는 것을 발견했습니다. 이는 가공되지 않은 흔적에서 학습된 잠재 표현 (latent representations)으로의 전환을 촉구합니다. 이러한 통찰을 바탕으로, 우리는 마주친 문제에 소비된 추론 시간 연산을 기저의 추론 구조를 포착하는 컴팩트한 모듈형 잠재 메모리 (latent memories)로 증류하는 온라인 방법을 제안합니다. 이 메모리들은 미래의 입력을 위해 저장 및 검색되며, 모듈형 설계를 통해 파괴적 망각 (catastrophic forgetting)을 피하면서 지속적인 개선을 가능하게 합니다. 중요한 점은, 우리의 방법이 매우 효율적이라는 것입니다. 모델 파라미터의 약 0.001%에 불과한 극도로 경량화된 소프트 프롬프트 메모리 (soft prompt memories)로 파라미터화되어 단 몇 번의 그래디언트 단계 (gradient steps)만으로 학습되지만, 전체 파라미터 업데이트 및 오프라인 학습과 경쟁할 만한 성능을 달성합니다. 도전적인 수학적 추론 벤치마크 전반에 걸쳐, 우리의 접근 방식은 제로샷 (zero-shot) 및 가공되지 않은 데이터 ICL 베이스라인을 크게 능가하며, 데이터셋 간에도 효과적으로 전이됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기