한 번 더: 강화학습 관점에서 본 신경 양자 상태(Neural Quantum States)의 재고

신경 양자 상태 (Neural Quantum States, NQS)는 양자 다체 파동 함수 (quantum many-body wavefunctions)를 근사하기 위한 유연하고 확장 가능한 프레임워크를 제공합니다. NQS 매개변수화 중에서 자기회귀 모델 (autoregressive models)은 Born 분포로부터 정확하고 독립적인 샘플링을 가능하게 하여, 마르코프 체인 (Markov chain) 방법의 자기상관 (autocorrelation) 및 혼합 (mixing) 문제를 피할 수 있기 때문에 특히 매력적입니다. 그러나 이들의 최적화는 상대적으로 덜 탐구된 상태로 남아 있습니다. Adam은 확장 가능한 방법이지만 함수 공간 기하학 (function space geometry)을 무시하며, 확률적 재구성 (stochastic reconfiguration)은 원칙적이지만 대규모 모델에서는 비용이 많이 들고 수치적으로 취약합니다. 이러한 격차를 해소하기 위해, 우리는 변분 에너지 최소화 (variational energy minimization)가 Born 분포에 대한 어드밴티지 정책 경사 (advantage policy-gradient) 문제로 간주될 수 있음을 보여주며, 이는 NQS 훈련을 위한 신뢰 영역 (trust-region) 최적화를 정당화합니다. 우리는 진폭 채널 (amplitude channel)의 확률 비율 변화와 위상 채널 (phase channel)의 위상 증가를 클리핑 (clipping)하는 원칙적인 신뢰 영역 알고리즘인 근사 파동 함수 최적화 (Proximal Wavefunction Optimization, PWO)를 소개합니다. PWO는 명시적인 행렬 역행렬 계산을 피하고, 여러 업데이트에 걸쳐 샘플을 재사용하며, 1차 최적화 (first-order optimization)의 확장성과 이론적 보장을 결합합니다. Ising 모델 및 좌절된 (frustrated) $J_1$-$J_2$ 1차원 및 2차원 스핀 시스템 전반에 걸쳐, PWO는 Adam, minSR, SPRING보다 안정성과 실제 실행 시간 (wall-clock) 수렴성을 개선합니다. 마지막으로, 우리는 1.5B 파라미터 RWKV-7 모델을 미세 조정 (fine-tune)하여, 이전 연구보다 3개 차수(three orders of magnitude) 이상 큰 규모에서 NQS 최적화를 입증합니다.

Insights

한 번 더: 강화학습 관점에서 본 신경 양자 상태(Neural Quantum States)의 재고

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때