본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 06. 17. 21:29

모듈러 메모리(Modular Memory)야말로 지속 학습 에이전트의 핵심이다

요약

기존 가중치 학습(IWL)의 파괴적 망각 문제를 해결하기 위해 모듈러 메모리 설계를 제안합니다. ICL의 신속한 적응력과 IWL의 안정적인 업데이트 능력을 결합하여 지속 학습 에이전트를 구현하는 프레임워크를 다룹니다.

핵심 포인트

  • 가중치 학습(IWL)의 파괴적 망각 문제 지적
  • 문맥 내 학습(ICL)과 IWL의 결합을 통한 모듈러 메모리 제안
  • 신속한 적응과 안정적인 지식 축적의 균형 추구
  • 지속 학습 에이전트를 위한 개념적 프레임워크 및 로드맵 제시

요지

Foundation models는 대규모 사전 학습(pretraining)과 테스트 시 계산량(test-time compute)의 증가를 통해 머신러닝을 변화시켰습니다. 여러 영역에서 인간의 성능을 능가함에도 불구하고, 이러한 모델들은 적응적 지능(adaptive intelligence)의 핵심 역량인 연속적인 운용, 경험 축적, 개인화 측면에서 근본적인 한계를 가지고 있습니다. 지속 학습(continual learning) 연구는 오랫동안 이러한 목표를 지향해 왔으나, 단일 모델의 파라미터를 업데이트하여 새로운 지식을 흡수하는 방식인 가중치 학습(In-Weight Learning, IWL)에 초점을 맞춘 결과, 파괴적 망각(catastrophic forgetting)은 지속적인 과제로 남아 있습니다. 우리의 입장은 모듈러 메모리(modular memory) 설계를 통해 가중치 학습(IWL)의 강점과 새롭게 등장한 문맥 내 학습(In-Context Learning, ICL)의 능력을 결합하는 것이 대규모 지속적 적응을 위한 마지막 퍼즐 조각이라는 것입니다. 우리는 신속한 적응과 지식 축적을 위해 ICL을 활용하고, 모델 능력의 안정적인 업데이트를 위해 IWL을 활용하는 모듈러 메모리 중심 아키텍처의 개념적 프레임워크를 개괄하며, 지속적으로 학습하는 에이전트를 향한 실질적인 로드맵을 제시합니다. 이 작업은 'Foundation Models 시대의 지속 학습'에 관한 Dagstuhl 세미나(2025년 10월)에서 진행된 논의에서 비롯되었습니다.

기반 모델[1]은 대규모 사전 학습과 테스트 시 계산량의 증대로 머신러닝을 일변시켰습니다. 그러나 여러 영역에서 인간의 성능을 능가함에도 불구하고, 연속적인 운용·경험의 축적·개별화와 같은 「적응적 지능」의 핵심을 이루는 능력에는 근본적인 한계가 남아 있습니다. 지속 학습 연구는 오래전부터 이러한 목표를 추구해 왔으나, 단일 모델의 파라미터를 업데이트하여 새로운 지식을 받아들이는 「가중치 학습 (In-Weight Learning, IWL)」[2]에 초점이 맞춰져 온 결과, 파괴적 망각 (catastrophic forgetting)[3]은 해결되지 않는 난제로 남아 있습니다. 우리의 입장은 다음과 같습니다. 모듈러 메모리 (modular memory)를 설계함으로써, IWL의 강점과 새롭게 대두된 문맥 내 학습 (In-Context Learning, ICL) [4]의 능력을 통합한다. 이것이야말로 대규모 지속적 적응을 위해 결여되었던 마지막 조각이다. 본 논문에서는 신속한 적응과 지식 축적을 위해 ICL을, 모델 능력의 안정적인 업데이트를 위해 IWL을 활용하는 모듈러 메모리 중심 아키텍처의 개념적 프레임워크를 제시하고, 지속적으로 학습하는 에이전트를 향한 실천적 로드맵을 그립니다. 본 연구는 「Foundation Models 시대의 지속 학습」이라는 주제로 열린 Dagstuhl seminar (2025년 10월)에서의 논의로부터 탄생했습니다.

1. Introduction

1. 서론

지능은 종종 "변화에 적응하는 능력" (Strauss, 2018)으로 정의되는데, 이는 적응, 학습, 그리고 기억을 강조하는 초기 심리학 및 신경과학 연구 (Binet et al., 1905; Hebb, 1949)에 뿌리를 둔 관점이며, 이러한 견해는 현대의 여러 정의들 (Legg & Hutter, 2007)에서도 일관되게 나타납니다. 이러한 원칙들은 안정성 (stability)과 가소성 (plasticity) 사이의 균형을 맞추면서 에이전트가 새로운 태스크에 어떻게 적응하는지를 연구하는 지속 학습 (continual learning) 및 평생 학습 (lifelong learning)의 근간이 됩니다 (Hadsell et al., 2020). 지속 학습 (CL) 연구는 훈련 시 학습 (training-time learning)과 테스트 시 학습 (test-time learning) 사이의 간극을 메우는 것을 목표로, 모델의 수명 동안 지식을 축적하는 문제를 오랫동안 연구해 왔습니다 (Wang et al., 2024a; Verwimp et al., 2024). 이는 전형적으로 단일 모델 (monolithic model)의 파라미터 학습을 통해 이루어지며, 이하에서는 이를 가중치 내 학습 (In-Weight Learning, IWL)이라고 부릅니다. 상당한 발전에도 불구하고, 빈번한 파라미터 업데이트는 망각 (forgetting; McCloskey & Cohen, 1989; French, 1999), 최적화 불안정성 (optimization instability; Hadsell et al., 2020; Hess et al., 2024), 그리고 가소성 저하 (reduced plasticity; Dohare et al., 2024)라는 문제에 직면해 있으며, 이로 인해 CL은 머신러닝에서 가장 도전적인 문제 중 하나가 되었습니다.

이와 병행하여, 대규모 사전 학습 (large-scale pretraining)은 모델의 능력을 극적으로 확장했습니다. 과거에는 도메인 특화 적응 (domain-specific adaptation)이 필수적인 것으로 간주되었으나 (Wiggins & Tejani, 2022), 이제 파운데이션 모델 (foundation models)은 광범위한 작업에서 뛰어난 성능을 발휘하며, 완전히 새로운 작업을 식별하는 것 자체가 점점 더 어려워지고 있습니다. 그러나 다양한 시나리오에서 AI 에이전트 (AI agents)의 도입이 확산됨에 따라 (Luo et al., 2025), 이러한 에이전트들이 장기간에 걸쳐 지속적으로 작동해야 할 필요성이 커지고 있습니다. 이 과정에서 에이전트는 효율적인 계산 발자국 (computational footprint)을 유지하면서 지식과 사용자 상호작용을 축적해야 하며, 이는 지속적인 적응 (continual adaptation)과 경험 축적의 필요성을 강조합니다.

모델 능력이 발전함에 따라, 인컨텍스트 학습 (In-Context Learning (ICL)) (Garg et al., 2022; Dong et al., 2024)이 전통적인 IWL 패러다임에 대한 대안적 학습 메커니즘으로 등장했습니다. ICL은 어텐션 메커니즘 (attention mechanisms) (Vaswani et al., 2017)을 통해 원시 입력 (raw inputs), 검색된 임베딩 (retrieved embeddings), 또는 학습된 임베딩 (learned embeddings)과 같은 추가 정보를 통합함으로써 모델의 출력을 조절합니다. 최근 연구들은 ICL이 상호 보완적인 학습 메커니즘 역할을 한다고 제안하며 (Lampinen et al., 2025; Dherin et al., 2025; Schuurmans, 2023), 퓨샷 일반화 (few-shot generalization) 측면에서 IWL보다 이점을 제공하고 잠재적으로 암시적 패턴 (implicit patterns)을 더 효과적으로 통합할 수 있음을 보여줍니다 (Yin et al., 2024). 따라서 LLM 에이전트 적응에 관한 대부분의 노력은 컨텍스트 윈도우 (context windows)를 확장하고 상호작용 이력을 저장하기 위한 메모리 시스템을 구축하는 것 (Gao et al., 2026)에 집중되어 있으며, 이는 일반적으로 모델이 동결(frozen)되어 있다고 가정합니다.

이것이 처음에는 망각(forgetting) 문제를 극복하는 것처럼 보일 수 있지만, 적응(adaptation)을 위해 오직 문맥 내 학습 (In-Context Learning, ICL)에만 의존하는 것은 상당한 한계에 직면합니다. 대규모 컨텍스트(context)에 대한 과도한 의존은 계산 효율성을 저하시키며, 컨텍스트 길이가 길어짐에 따라 성능 저하를 초래합니다 (Hong et al., 2025). 또한, 동결된(frozen) 베이스 모델은 비정상적 환경(non-stationary environments)에서의 데이터 분포의 근본적인 변화나 계속해서 진화하는 사용자 요구 사항에 적응할 수 없습니다.

여기서 우리는 지능적인 적응(adaptation)과 지식 축적의 핵심이 모듈러 메모리(modular memory) 아키텍처 하에서 두 가지 학습 메커니즘인 ICL(In-Context Learning)과 IWL(In-Weight Learning)의 강점을 결합하는 데 있다고 주장합니다. 이 아키텍처에서는 사전 학습된(pretrained) 코어 모델이 활성 문맥(active context)을 위한 워킹 메모리(working memory)와 신속한 적응 및 지식 축적을 위한 장기 메모리(long-term memory)라는 별도의 메모리 모듈로 증강됩니다. 코어 모델을 동결(freezing)하는 대신, 장기 메모리는 안정적이고 저빈도의 업데이트를 통해 증류(distill)될 수 있으며(이는 망각에 대응함), 이는 코어 모델에 단순 암기를 유도하기 위함이 아니라 축적된 지식으로부터 더 높은 수준의 일반화(generalization)를 가능하게 하고 점진적인 성능 향상을 도모하기 위함입니다. 우리의 입장은 적응(adaptation)이야말로 지능을 향한 경로에서 오랫동안 결여되었던 초석이라는 것입니다. 이제 In-Context Learning과 In-Weight Learning의 상호 보완적인 강점을 결합하는 모듈러 지속 학습(modular continual learning) 솔루션을 실현할 적기입니다. 우리는 관련 분야에서 메모리의 역할(제2절)을 개괄하고, 우리의 모듈러 프레임워크와 그 기능(제3절, 제4절)을 제시한 후, 기회와 응용 영역을 논의하며 행동을 촉구합니다(제5절).

2. 소프트웨어, 하드웨어, 웨트웨어를 가로지르는 메모리

메모리는 경험의 공고화(consolidation)뿐만 아니라 적응형 컴퓨팅(adaptive compute)에 있어서도 매우 중요하기 때문에 다양한 인접 분야에서 필수적입니다. 다음에서는 상호 보완적인 관점들을 간략하게 요약하고, 대규모 지속 학습 에이전트(continual learning agents at scale)에 대한 이들의 관련성을 강조합니다.

기억은 경험의 통합뿐만 아니라, 적응적 계산 (adaptive compute)을 고려하는 데 있어서도 필수적인 요소이며, 다양한 분야에서 중요하게 다루어지고 있습니다. 여기에서는 이러한 관점들을 간단히 정리하여, 대규모 지속 학습 에이전트에게 무엇이 핵심 포인트가 되는지를 밝히고자 합니다.

2.1. 지속 학습에서의 기억의 초기 활용 방식

Memory has long been viewed as central to a machine learning system's ability to acquire new knowledge without erasing what was previously learned. Before the rise of deep learning, influential lifelong learning systems—such as the Never-Ending Language Learner (NELL) (Mitchell et al., 2018) and the Never-Ending Image Learner (NEIL) (Chen et al., 2013)—explicitly treated memory as a persistent repository accumulated over years of continuous operation, built from engineered components including web-scale extraction, coupled-pattern learning, morphological classification, and rule-based integration.

기계 학습 시스템이 과거의 학습 내용을 잃지 않고 새로운 지식을 습득하는 능력에 있어, 기억은 오래전부터 핵심적인 역할을 담당하는 것으로 간주되어 왔습니다. 딥러닝 (deep learning)이 대두되기 이전에는, Never-Ending Language Learner (NELL) (Mitchell et al., 2018)나 Never-Ending Image Learner (NEIL) (Chen et al., 2013)와 같은 대표적인 평생 학습 (lifelong learning) 시스템이 있었습니다 [6]. 이들은 기억을 "수년 단위로 연속 운용하는 동안 축적되는 영구적인 저장소 (persistent repository)"로 명시적으로 다루었으며, 웹 규모의 정보 추출 (web-scale extraction), 결합 패턴 학습 (coupled-pattern learning), 형태적 분류 (morphological classification), 규칙 기반 통합 (rule-based integration) 등 설계된 구성 요소들로 구축되었습니다.

신경망 (neural networks)의 재부상과 함께, 지속 학습 (continual learning)은 치명적 간섭 (catastrophic interference) 문제 (McCloskey & Cohen, 1989; French, 1999)를 중심으로 다시 부상했습니다. 이러한 변화는 심층 지속 학습 (deep continual learning)에서 메모리에 대한 상당히 통합된 관점으로 이어졌으며, 이는 크게 두 가지 형태, 즉 저장된 데이터 (stored data)와 모델 파라미터 (model parameters)로 분류될 수 있습니다 (De Lange et al., 2021; Wang et al., 2024a). 첫째, 과거 태스크의 저장된 예시들을 리허설 (rehearsal, 또는 replay)하는 방식은 그 경험적 성공 덕분에 망각 (forgetting)을 완화하기 위한 지배적인 전략이 되었습니다 (Rebuffi et al., 2017; Rolnick et al., 2019; Hayes et al., 2019; 2021; Verwimp et al., 2021; Wang et al., 2022a). 둘째, 모델 파라미터에 인코딩된 메모리는 파라미터적 또는 기능적 정규화 (parametric or functional regularization)를 통해 업데이트를 제한하는 방식 (Kirkpatrick et al., 2017; Aljundi et al., 2018; Li & Hoiem, 2017)이나, 과거의 그래디언트 (historical gradients)를 통한 근사적 리플레이 (approximate replay) 방식 (Lopez-Paz & Ranzato, 2017; Chaudhry et al., 2018; Aljundi et al., 2019b)에 동기를 부여했습니다. 의사 리허설 (Pseudo-rehearsal) 방법은 이전 모델의 스냅샷 (model snapshots)을 사용하여 과거 데이터를 추가적으로 합성합니다 (Shin et al., 2017; van de Ven et al., 2020). 전반적으로, 심층 지속 학습에서의 메모리는 추론 (inference)의 필수적인 구성 요소라기보다는, 모델 학습 중 망각을 완화하는 주요 역할을 하는 버퍼 (buffer)로 주로 취급되어 왔습니다. 상당한 진전이 있었음에도 불구하고, 이러한 가중치 내 학습 (In-Weight Learning)에 대한 유일한 의존은 여전히 망각 및 안정성-가소성 트레이드오프 (stability-plasticity trade-offs) 문제에 직면해 있습니다.

뉴럴 네트워크 (Neural Network)의 재흥과 함께, 지속 학습 (Continual Learning)은 파괴적 간섭 (catastrophic interference) (McCloskey & Cohen, 1989; French, 1999)[7]을 중심 문제로 재부상했습니다. 이러한 흐름 속에서 심층 지속 학습 (Deep Continual Learning)에서의 기억 관점은 대체로 통일되어, 축적된 데이터 (stored data)와 모델 파라미터 (model parameters)의 두 가지로 크게 분류되었습니다 (De Lange et al., 2021; Wang et al., 2024a). 첫째, 과거 태스크의 저장 사례를 리허설 (replay) 하는 기법이 경험적인 성공을 바탕으로 망각 경감의 주류가 되었습니다 (Rebuffi et al., 2017; Rolnick et al., 2019; Hayes et al., 2019; 2021; Verwimp et al., 2021; Wang et al., 2022a). 둘째, 모델 파라미터에 인코딩된 기억이라는 관점은 파라미터 정규화 (parameter regularization)나 함수 공간에서의 정규화를 통해 업데이트를 제약하는 기법 (Kirkpatrick et al., 2017; Aljundi et al., 2018; Li & Hoiem, 2017) 및 과거의 그래디언트 (gradient)를 사용하여 근사적으로 리플레이하는 기법 (Lopez-Paz & Ranzato, 2017; Chaudhry et al., 2018; Aljundi et al., 2019b)을 탄생시켰습니다. 나아가 의사 리허설 (pseudo-rehearsal) 계열의 기법은 오래된 모델 스냅샷 (model snapshot)을 사용하여 과거 데이터를 합성합니다 (Shin et al., 2017; van de Ven et al., 2020). 종합적으로 보면, 심층 지속 학습에서의 기억은 대체로 "학습 도중에 과거의 사례를 일시적으로 보관하여 망각을 완화하기 위한 저장소"로 취급되어 왔으며, 추론 단계의 본질적인 구성 요소로는 위치하지 않았습니다. 큰 진전이 있었음에도 불구하고, 가중치 학습 (weight learning)에만 의존하는 이 접근 방식은 여전히 망각 및 안정성-가소성 트레이드오프 (stability-plasticity trade-offs) 문제에 직면해 있습니다.

2.2. 현대 대규모 모델에서의 기억

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0