arXiv논문2026. 06. 24. 11:20

확장성(Scale)이 거대 언어 모델(LLM)의 가소성 상실(Plasticity Loss)을 해결할 수 있을까?

요약

LLM의 지속적 학습 과정에서 발생하는 가소성 상실(Plasticity Loss) 현상을 연구했습니다. 모델 크기가 커질수록 가소성 상실의 발생이 지연되지만, 파라미터 확장만으로는 이를 완전히 해결할 수 없음을 확인했습니다.

핵심 포인트

Transformer 기반 LLM에서도 가소성 상실 현상이 관찰됨
가소성 상실의 시작은 예측 가능한 확장 법칙(Scaling Law)을 따름
모델 크기 증가에 따라 가소성 상실은 하위 선형적으로 증가함
단순한 파라미터 확장만으로는 가소성 상실을 완전히 방지하기 어려움

가소성 상실(loss of plasticity) — 즉, 네트워크가 이미 이전 정보를 학습한 후 새로운 정보를 학습하는 능력 — 은 지속적 학습(continual learning)이 가능한 인공 신경망을 구축하는 데 있어 근본적인 과제입니다. 이 현상은 수십 년 동안 알려져 왔지만, 주로 오래된 상대적으로 작은 아키텍처에서 연구되었으며 자연어 도메인에서는 거의 연구되지 않았습니다. 현대의 Transformer 기반 LLM 패러다임에서도 가소성 상실이 여전히 문제로 남아 있는지 확인하기 위해, 우리는 다국어 지속적 학습 문제로 학습된 GPT 스타일의 Transformer 모델에서 가소성 상실을 연구합니다. 선행 연구와 일치하게, 우리는 별도의 베트남어 프로빙(probing) 태스크에서의 성능 저하를 통해 측정했을 때, 5M에서 314M 사이의 비임베딩 파라미터(non-embedding parameters)를 가진 모델 전반에서 가소성 상실의 증거를 발견했습니다. 나아가 우리는 가소성 상실의 시작이 예측 가능한 확장 법칙(scaling law)을 따르며, 모델 크기에 따라 하위 선형적(sublinearly)으로 증가한다는 것을 발견했습니다. 이러한 결과는 더 큰 모델이 가소성 상실의 측정 가능한 효과를 지연시킬 수는 있지만, 파라미터 수를 늘리는 것만으로는 이를 완전히 방지하기에 불충분할 가능성이 높음을 시사합니다. 또한 우리는 정적(stationary) 다국어 학습 환경에서도 가소성 상실의 증거를 발견하였으며, 이는 이 현상이 급격한 태스크 변화가 있는 지속적 학습에만 국한된다는 견해에 의문을 제기합니다. 종합적으로, 우리의 연구 결과는 자연어로 학습된 거대 Transformer 언어 모델이라 할지라도, 지속적(continual) 및 정적(stationary) 설정 모두에서 충분히 긴 학습을 거친 후에는 결국 새로운 데이터에 효율적으로 적응하는 능력을 상실하게 될 것임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

확장성(Scale)이 거대 언어 모델(LLM)의 가소성 상실(Plasticity Loss)을 해결할 수 있을까?

요약

핵심 포인트

댓글