본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 13:25

Perplexity를 넘어: 저차원 사전 학습(Low-Rank Pre-Training)에 대한 기하학적 및 스펙트럼 연구

요약

본 연구는 대규모 언어 모델(LLM)의 메모리 효율성을 높이는 저차원 사전 학습(Low-rank pre-training) 방법론들이 전체 랭크 학습과 비교하여 어떤 근본적인 차이를 가지는지 기하학적 및 스펙트럼 관점에서 심층 분석합니다. 기존 연구가 퍼플렉시티 같은 단일 지표에 의존했던 한계를 넘어, 다양한 모델 규모와 다섯 가지 저차원 방법론을 네 가지 차원의 16가지 지표로 평가했습니다. 그 결과, 저차원 방법론들은 검증 퍼플렉시티가 유사하더라도 전체 랭크 학습과 동일한 솔루션을 찾지 않으며, 각기 기하학적으로 구별되는 분지로 수렴함을 입증했습니다.

핵심 포인트

  • 저차원 사전 학습은 메모리 효율성을 제공하지만, 그로 인해 모델이 찾는 최적의 솔루션(분지)이 전체 랭크 학습과 근본적으로 다를 수 있다.
  • 단순한 검증 퍼플렉시티는 모델 성능을 나타내는 불충분한 대리 지표이며, 손실 경관 및 내부 표현 분석이 필수적이다.
  • 저차원 방법론들은 각기 고유하고 기하학적으로 구별되는 분지(basin)로 수렴하며, 이 특성은 활성화 유사성이나 스펙트럼 구조 등의 다차원 지표를 통해 포착되어야 한다.
  • 전체 랭크 학습은 무작위 방향에서는 저차원 방법론보다 더 날카로운 분지에 안착하는 경향을 보이지만, Top-1 PCA 방향에서는 그 반대의 현상이 나타난다.

대규모 언어 모델(Large Language Models)의 사전 학습(Pre-training)은 전체 랭크(Full-rank) 가중치, 그래디언트(Gradients), 그리고 옵티마이저 상태(Optimizer states)를 저장하는 메모리 비용에 의해 지배됩니다. 이를 해결하기 위해 저차원 사전 학습(Low-rank pre-training)이 등장했으며, 방법론의 범위가 급격히 확장되었습니다. 핵심적인 질문은 여전히 해결되지 않은 상태로 남아 있습니다: 저차원 방법론들이 전체 랭크 학습과 비교할 만한 일반화 성능을 가진 모델을 생성하는가, 아니면 랭크 제약(Rank constraint)이 도달하는 솔루션을 근본적으로 변화시키는가? 기존의 비교 연구들은 거의 전적으로 이전 문헌에서 이어져 온 단일 시드(Single-seed) 실행의 검증 퍼플렉시티(Validation perplexity)에 의존하고 있습니다. 그러나 퍼플렉시티(Perplexity)는 솔루션 품질을 나타내는 불충분한 대리 지표(Proxy)입니다. 두 방법론이 퍼플렉시티 측면에서는 일치하더라도, 서로 다른 손실 경관(Loss landscape) 영역과 내부 표현(Internal representations)으로 수렴할 수 있기 때문입니다.

본 연구에서는 세 가지 모델 규모(60M, 130M, 350M)에서 전체 랭크 학습과 대비하여 다섯 가지 저차원 사전 학습 방법론인 GaLore 및 Fira(메모리 효율적 옵티마이저), CoLA 및 SLTrain(아키텍처 재매개변수화), 그리고 ReLoRA(주기적 리셋을 포함한 어댑터 스타일 업데이트)가 찾아내는 솔루션의 특성을 규명함으로써 이 간극을 메웁니다. 우리는 네 가지 차원에 걸친 16가지 지표를 통해 각 방법론을 평가합니다: 무작위/Top-K PCA 방향을 따른 1차원 손실 경관(1-D loss landscape), 체크포인트 간의 1차원 보간(1-D interpolation), 가중치 및 학습된 업데이트의 스펙트럼 구조(Spectral structure), 그리고 전체 랭크 학습과의 활성화 유사성(Activation similarity)입니다.

연구 결과, 저차원 방법론들은 검증 퍼플렉시티(Validation perplexity)가 유사할 때조차 전체 랭크 학습과 동일하지 않으며, 서로 간에도 동일하지 않음을 보여줍니다. 전체 랭크 학습은 무작위 방향을 따라 저차원 방법론보다 더 날카로운 분지(Sharper basin)로 안착하는 반면, Top-1 PCA 방향에서는 그 반대의 현상이 나타납니다. 각 방법론은 기하학적으로 구별되는 분지로 수렴합니다. 저차원 활성화(Low-rank activations)는 학습이 진행됨에 따라 후기 레이어에서 전체 랭크 학습과 멀어지며, GaLore가 전체 랭크를 가장 밀접하게 추적합니다. 나아가, 검증 퍼플렉시티(Validation perplexity)가 모든 규모에서 다운스트림 성능(Downstream performance)으로 직결되지는 않습니다. 기하학적 및 스펙트럼 지표를 추가함으로써 예측 성능을 향상시킬 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0