대규모 언어 모델(LLM) 온도 스케일링에서의 생성적 임계성 (Generative Criticality)
요약
LLM 생성 텍스트의 토큰 임베딩을 통계적 장 프레임워크로 분석하여 생성적 임계성을 제안합니다. Softmax 온도가 특정 임계점(Tc)에 도달할 때 발생하는 급격한 변화와 멱법칙 스케일링을 관찰했습니다.
핵심 포인트
- 토큰 임베딩을 통계적 장 프레임워크로 모델링
- Softmax 온도 변화에 따른 상전이 현상 발견
- 임계점 근처에서 감수율 피크 및 질서 매개변수 변화
- 모델 규모와 프롬프트 범주에 걸친 결과의 견고성 확인
우리는 대규모 언어 모델(LLMs)에 의해 생성된 텍스트를 위해, 토큰 임베딩(token embeddings)을 1차원 체인(one-dimensional chain) 상의 연속적인 스핀 변수(continuous spin variables)로 취급하는 통계적 장(statistical-field) 프레임워크를 제안합니다. 연결된 2점 상관 함수(connected two-point correlator)로부터 감수율(susceptibility)을 정의하고 앙상블 평균 임베딩 장(ensemble-averaged embedding field)으로부터 질서 매개변수(order parameter)를 정의함으로써, 우리는 exttt{softmax} 온도 $T$를 변화시키며 특성적인 $T_c$ 근처에서 멱법칙(power-law)과 유사한 스케일링을 갖는 급격한 감수율 피크, 질서 매개변수의 동시적인 급격한 변화, 그리고 $T_c$ 미만에서 단일한 의미론적 방향으로의 붕괴(collapse)를 관찰합니다. 최근접 이웃 2개(TwoNN) 방법으로 추정된 고유 차원(intrinsic dimension)은 이러한 발견들을 독립적으로 뒷받침하며, $T_c$ 근처에서 최솟값에 도달합니다. 결과는 모델 규모(Qwen3: 0.6B--32B)와 프롬프트 범주 전반에 걸쳐 견고합니다. 이러한 현상은 연속 상전이(continuous phase transition)와 매우 유사하지만, 자기회귀 생성(autoregressive generation)의 비평형적 특성은 추가적인 조사를 필요로 합니다. 우리의 프레임워크는 LLM 출력의 집단적 통계 구조를 조사하기 위한 정량적 도구를 제공하며, 디코딩 전략(decoding strategies)과 임계 현상(critical phenomena) 사이의 연결 고리를 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기