본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 15. 16:01

TFGN: LLM 규모에서 치명적 망각 (Catastrophic Forgetting) 없는 Task-Free, Replay-Free 지속적

요약

TFGN은 리플레이나 태스크 라벨 없이 대규모 언어 모델(LLM)을 이질적인 텍스트 도메인에서 지속적으로 사전 학습할 수 있도록 설계된 구조적 오버레이입니다. 이는 Transformer의 나머지 부분을 변경하지 않으면서 입력 조건부의 매개변수 효율적인 업데이트를 생성합니다. TFGN은 다양한 규모와 방식에서 치명적 망각을 효과적으로 해결하고, 교차 도메인 순방향 전이 능력을 보여주며, 폐쇄 루프 메타 제어 및 연산자 수준 계획 기능을 통합한 최초의 아키텍처입니다.

핵심 포인트

  • TFGN은 리플레이 버퍼나 태스크 ID 없이 LLM의 지속적 사전 학습(Continual pre-training)을 가능하게 하는 구조적 오버레이입니다.
  • 매개변수 효율적인 업데이트를 통해 치명적 망각 문제를 해결하며, 다양한 이질적 도메인에서 높은 유지율과 L2-직교 그래디언트 분리 능력을 입증했습니다.
  • 단순한 지속 학습을 넘어, 폐쇄 루프 메타 제어 레이어와 연산자 수준 계획 벡터를 통합하여 자율적인 학습 및 동작 재구성 기능을 제공합니다.
  • TFGN의 핵심 구조적 통찰은 순방향 패스는 밀집되어 있는 반면, 교차 도메인 매개변수 업데이트는 이전 도메인의 부분 공간이 쓰여지지 않도록 구조화되었다는 점입니다.

리플레이 (Replay)나 태스크 라벨 (Task labels) 없이 이질적인 텍스트 도메인에서 대규모 언어 모델 (Large Language Model, LLM)을 지속적으로 사전 학습 (Continual pre-training)하는 것은 LLM 규모에서 아직 해결되지 않은 구조적 문제입니다. 기존 방법들은 리플레이 버퍼 (Replay buffers), 태스크 식별자 (Task identifiers), 확장성이 떨어지는 정규화 페널티 (Regularization penalties), 또는 문장 분류 규모의 평가에 의존합니다. 우리는 Transformer 언어 모델을 위한 구조적 오버레이 (Architectural overlay)인 TFGN을 소개합니다. 이는 Transformer의 나머지 부분을 변경하지 않으면서 입력 조건부 (Input-conditioned)의 매개변수 효율적인 (Parameter-efficient) 업데이트를 생성합니다. 세 가지 모델 규모 (~398M, ~739M, ~9B)와 두 가지 방식 (From-Scratch 및 Retrofit)에 걸쳐, 단계당 1B 토큰의 6개 이질적 텍스트 도메인 (Prose, Python, Math, Biomedical, Chinese, JavaScript)에서 TFGN은 LLaMA 3.1 8B Retrofit에서 -0.007의 역방향 전이 (Backward transfer), HellaSwag 유지율 (Retention) 0.506/0.504/0.510, 그리고 도메인 쌍 간의 99.59% 이상의 L2-직교 그래디언트 분리 (L2-orthogonal gradient separation)를 달성했습니다. 이 과정에서 리플레이, 태스크 ID, Fisher 페널티 (Fisher penalty)는 전혀 사용되지 않았습니다. 동일한 행렬들은 긍정적인 교차 도메인 순방향 전이 (Cross-domain forward transfer)를 보여줍니다: 순수하게 Python 학습만으로도 LLaMA-8B Retrofit에서 제외된 JavaScript PPL이 26.8% 감소하였고, GPT-2 Medium From-Scratch에서는 62.0% 감소했습니다. 동일한 기반 위에서의 두 가지 확장 기능은 추가적인 미해결 문제들을 해결합니다. 폐쇄 루프 메타 제어 레이어 (Closed-loop meta-control layer, 확장 기능 A)는 ~398M 규모에서 망각을 추가로 81% 줄이며, 이는 Dupoux et al. (arXiv:2603.15381)의 System A 및 System M 역할에 대응합니다. 연산자 수준의 계획 벡터 (Operator-level plan vector, 확장 기능 B)는 30개의 소스->타겟 쌍에 대해 99.96%의 코사인 충실도 (Cosine fidelity)로 순방향 패스 (Forward-pass) 동작을 재구성합니다. 구조적 통찰은 읽기/쓰기 분해 (Read/Write decomposition)에 있습니다: 순방향 패스는 완전히 밀집되어(Fully dense) 있는 반면, 교차 도메인 매개변수 업데이트는 이전 도메인의 부분 공간 (Subspaces)이 쓰여지지 않도록 구조화되어 있습니다. 우리가 알기로, TFGN은 LLM 규모에서 치명적 망각 (Catastrophic forgetting)을 동시에 해결하고, 폐쇄 루프 자율 학습 메타 컨트롤러 (Closed-loop autonomous-learning meta-controller)를 구현하며, 연산자 수준의 잠재 계획기 (Operator-level latent planner)를 갖춘 최초의 아키텍처입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0