본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 24. 11:20

확장성(Scale)이 거대 언어 모델(LLM)의 가소성 상실(Plasticity Loss)을 해결할 수 있을까?

요약

LLM의 지속적 학습 과정에서 발생하는 가소성 상실(Plasticity Loss) 현상을 연구했습니다. 모델 크기가 커질수록 가소성 상실의 발생이 지연되지만, 파라미터 확장만으로는 이를 완전히 해결할 수 없음을 확인했습니다.

핵심 포인트

  • Transformer 기반 LLM에서도 가소성 상실 현상이 관찰됨
  • 가소성 상실의 시작은 예측 가능한 확장 법칙(Scaling Law)을 따름
  • 모델 크기 증가에 따라 가소성 상실은 하위 선형적으로 증가함
  • 단순한 파라미터 확장만으로는 가소성 상실을 완전히 방지하기 어려움

가소성 상실(loss of plasticity) — 즉, 네트워크가 이미 이전 정보를 학습한 후 새로운 정보를 학습하는 능력 — 은 지속적 학습(continual learning)이 가능한 인공 신경망을 구축하는 데 있어 근본적인 과제입니다. 이 현상은 수십 년 동안 알려져 왔지만, 주로 오래된 상대적으로 작은 아키텍처에서 연구되었으며 자연어 도메인에서는 거의 연구되지 않았습니다. 현대의 Transformer 기반 LLM 패러다임에서도 가소성 상실이 여전히 문제로 남아 있는지 확인하기 위해, 우리는 다국어 지속적 학습 문제로 학습된 GPT 스타일의 Transformer 모델에서 가소성 상실을 연구합니다. 선행 연구와 일치하게, 우리는 별도의 베트남어 프로빙(probing) 태스크에서의 성능 저하를 통해 측정했을 때, 5M에서 314M 사이의 비임베딩 파라미터(non-embedding parameters)를 가진 모델 전반에서 가소성 상실의 증거를 발견했습니다. 나아가 우리는 가소성 상실의 시작이 예측 가능한 확장 법칙(scaling law)을 따르며, 모델 크기에 따라 하위 선형적(sublinearly)으로 증가한다는 것을 발견했습니다. 이러한 결과는 더 큰 모델이 가소성 상실의 측정 가능한 효과를 지연시킬 수는 있지만, 파라미터 수를 늘리는 것만으로는 이를 완전히 방지하기에 불충분할 가능성이 높음을 시사합니다. 또한 우리는 정적(stationary) 다국어 학습 환경에서도 가소성 상실의 증거를 발견하였으며, 이는 이 현상이 급격한 태스크 변화가 있는 지속적 학습에만 국한된다는 견해에 의문을 제기합니다. 종합적으로, 우리의 연구 결과는 자연어로 학습된 거대 Transformer 언어 모델이라 할지라도, 지속적(continual) 및 정적(stationary) 설정 모두에서 충분히 긴 학습을 거친 후에는 결국 새로운 데이터에 효율적으로 적응하는 능력을 상실하게 될 것임을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0