arXiv논문2026. 06. 30. 12:34

정렬 역학(Alignment Dynamics)에 대한 물리적 직관을 향하여: 무작위 결정화(Randomness Crystallization)

요약

언어 모델의 정렬(Alignment) 과정을 열역학적 상전이 이론인 '결정화' 관점에서 분석한 연구입니다. 사후 학습 중 모델의 행동 변화를 고엔트로피 액체, 핵 생성, 안정화의 세 단계로 정의하여 정렬 역학에 대한 물리적 직관을 제공합니다.

핵심 포인트

정렬 과정을 열역학적 상전이 이론으로 해석
사후 학습을 액체, 핵 생성, 안정화의 3단계로 구분
정렬이 사전 학습된 모델의 시드 분포로 수렴함을 설명
정렬 역학을 이해하기 위한 새로운 물리적 프레임워크 제안

언어 모델의 정렬(Alignment)은 일반적으로 능력 벤치마크(capability benchmarks)의 관점에서 연구되지만, 사후 학습(post-training) 과정 동안 모델이 어떻게 변화하는지에 대한 역학(dynamics)은 여전히 제대로 이해되지 않고 있습니다. 우리는 물리 과학, 특히 열역학적 상전이 이론(thermodynamic phase-transition theory)이 이러한 역학을 추론하기 위한 원칙적이고 아직 충분히 탐구되지 않은 어휘를 제공한다고 주장합니다. 사례 연구로서, 우리는 잘 연구된 열역학적 상전이인 물질의 결정화(Crystallization) 관점을 통해 이러한 입장을 구체화합니다. 난수 생성(random number generation)과 같은 작업의 경우, 이는 세 가지 단계로 나뉩니다: (1) 사전 학습된 모델(pretrained model)에서의 고엔트로피 액체 단계(high entropy liquid phase)로, 모델로부터 유도할 수 있는 많은 별개의 샘플링 분포(sampling distributions)가 존재합니다; (2) 지도 미세 조정(supervised finetuning)에 의해 발생하는 핵 생성 단계(nucleation phase)로, 이 단계에서는 행동이 사전 학습된 LLM에 존재하는 단일 시드 분포(seed distribution)로 붕괴(collapse)됩니다; (3) 강화 학습(reinforcement learning) 기술이 붕괴된 분포의 확률을 재분배하지만, 시드 분포와 동일한 옵션에 주로 집중된 상태를 유지하는 안정화 단계(settling phase)입니다. 우리는 이러한 단계들 사이의 전이를 검증하기 위한 직관적인 지표를 제안하며, 다양한 무작위 작업에 걸쳐 이 아이디어를 검증합니다. 결정화는 정렬 연구가 정렬으로 유도된 구조가 어디에서 오는지, 왜 특정 지점으로 수렴하는지, 그리고 근본적으로 무엇을 바꿀 수 없는지에 대한 질문에 답하기 위해 도입해야 한다고 믿는 더 넓은 범위의 물리적 프레임워크의 한 사례입니다.

AI 자동 생성 콘텐츠

원문 바로가기

정렬 역학(Alignment Dynamics)에 대한 물리적 직관을 향하여: 무작위 결정화(Randomness Crystallization)

요약

핵심 포인트

댓글