한 번 더: 강화학습 관점에서 본 신경 양자 상태(Neural Quantum States)의 재고
요약
신경 양자 상태(NQS) 최적화를 위해 강화학습의 어드밴티지 정책 경사 관점을 도입한 PWO 알고리즘을 제안합니다. PWO는 기존 Adam이나 SR 방식의 한계를 극복하여 대규모 모델에서도 안정적이고 효율적인 수렴을 보장합니다.
핵심 포인트
- NQS 최적화를 변분 에너지 최소화 기반의 정책 경사 문제로 재정의
- 신뢰 영역 알고리즘인 PWO를 통해 확장성과 이론적 보장 결합
- Ising 모델 및 스핀 시스템에서 기존 최적화 방식보다 우수한 성능 입증
- 1.5B 파라미터 RWKV-7 모델을 통해 대규모 NQS 최적화 가능성 확인
신경 양자 상태 (Neural Quantum States, NQS)는 양자 다체 파동 함수 (quantum many-body wavefunctions)를 근사하기 위한 유연하고 확장 가능한 프레임워크를 제공합니다. NQS 매개변수화 중에서 자기회귀 모델 (autoregressive models)은 Born 분포로부터 정확하고 독립적인 샘플링을 가능하게 하여, 마르코프 체인 (Markov chain) 방법의 자기상관 (autocorrelation) 및 혼합 (mixing) 문제를 피할 수 있기 때문에 특히 매력적입니다. 그러나 이들의 최적화는 상대적으로 덜 탐구된 상태로 남아 있습니다. Adam은 확장 가능한 방법이지만 함수 공간 기하학 (function space geometry)을 무시하며, 확률적 재구성 (stochastic reconfiguration)은 원칙적이지만 대규모 모델에서는 비용이 많이 들고 수치적으로 취약합니다. 이러한 격차를 해소하기 위해, 우리는 변분 에너지 최소화 (variational energy minimization)가 Born 분포에 대한 어드밴티지 정책 경사 (advantage policy-gradient) 문제로 간주될 수 있음을 보여주며, 이는 NQS 훈련을 위한 신뢰 영역 (trust-region) 최적화를 정당화합니다. 우리는 진폭 채널 (amplitude channel)의 확률 비율 변화와 위상 채널 (phase channel)의 위상 증가를 클리핑 (clipping)하는 원칙적인 신뢰 영역 알고리즘인 근사 파동 함수 최적화 (Proximal Wavefunction Optimization, PWO)를 소개합니다. PWO는 명시적인 행렬 역행렬 계산을 피하고, 여러 업데이트에 걸쳐 샘플을 재사용하며, 1차 최적화 (first-order optimization)의 확장성과 이론적 보장을 결합합니다. Ising 모델 및 좌절된 (frustrated) $J_1$-$J_2$ 1차원 및 2차원 스핀 시스템 전반에 걸쳐, PWO는 Adam, minSR, SPRING보다 안정성과 실제 실행 시간 (wall-clock) 수렴성을 개선합니다. 마지막으로, 우리는 1.5B 파라미터 RWKV-7 모델을 미세 조정 (fine-tune)하여, 이전 연구보다 3개 차수(three orders of magnitude) 이상 큰 규모에서 NQS 최적화를 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기