arXiv논문2026. 06. 17. 11:44

대규모 언어 모델(LLM)에서 작은 초기화의 중요성

요약

본 연구는 LLM의 파라미터 초기화 규모가 모델의 용량과 추론 능력에 결정적인 영향을 미친다는 사실을 밝힙니다. 초기화 규모를 줄이면 사전 학습 성능이 개선되며, 파라미터가 저복잡도 구조에서 풍부한 표현으로 확장되는 독특한 발달 궤적을 보입니다.

핵심 포인트

작은 초기화 규모가 사전 학습 및 추론 성능을 일관되게 개선함
파라미터가 저복잡도 구조에서 고복잡도 표현으로 확장되는 메커니즘 발견
초기화 범위 조절을 통해 모델 규모 전반의 성능 향상 가능
압축이 곧 지능이라는 아이디어를 실험적으로 뒷받침

대규모 언어 모델(Large Language Models, LLMs)은 단순히 LLM을 어떻게 설계할 것인가를 넘어, 지능 그 자체가 어떻게 발현되는지를 질문할 수 있는 다루기 쉬운 시스템을 제공합니다. 비록 그동안의 발전이 주로 규모(scale), 데이터 및 아키텍처(architecture) 덕분인 것으로 여겨져 왔으나, 본 연구에서는 파라미터 초기화(parameter initialization)가 훈련, 특히 모델 용량(model capacity)을 결정하는 유전자와 같은 결정 요인임을 보여줍니다. 초기화 규모(initialization scale)를 줄이는 것은 사전 학습(pretraining)을 일관되게 개선하며, 추론(reasoning)을 요구하는 작업에서 가장 큰 이득을 얻습니다. 우리는 작은 초기화의 이점을 제한하는 널리 사용되는 두 가지 경험적 설정(empirical settings)을 식별하고, 이를 완화함으로써 유리한 스케일링(scaling)을 어떻게 회복하는지 보여줍니다. 나아가 우리는 추론과 훈련의 균형을 맞추는 결정적인 초기화 방식을 밝혀냅니다. 메커니즘 측면에서, 작은 초기화는 독특한 발달 궤적을 유도합니다. 즉, 파라미터가 먼저 저복잡도 구조(low-complexity structures)로 응축된 후 나중에 더 풍부한 표현(representations)으로 확장되는데, 이는 압축(compression)이 곧 지능이라는 아이디어에 구체적인 형태를 부여합니다. 토큰 수준(Token-level) 분석에 따르면, 이러한 이득은 모든 토큰에 균일하게 나타나기보다 비자명하고(non-trivial) 문맥 제약이 있는(context-constrained) 예측에 집중됩니다. 이러한 결과는 단순한 $\gamma$-초기화 규칙을 제안합니다. 즉, 초기화 범위(initialization range)를 명시적인 조절 노브(knob)로 노출시키고 기본적으로 작은 초기화를 사용하는 것입니다. 이는 비용이 거의 들지 않으면서도 모델 규모 전반에 걸쳐 사전 학습을 개선하고 추론 능력을 강화하는 개입 방법입니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델(LLM)에서 작은 초기화의 중요성

요약

핵심 포인트

댓글