좌절된 동기화로서의 어텐션 (Attention as Frustrated Synchronization)
요약
어텐션 메커니즘을 진동자 네트워크의 '좌절된 동기화(Frustrated Synchronization)' 관점에서 재해석한 FSN 아키텍처를 제안합니다. FSN은 기존 Transformer보다 적은 파라미터와 학습 예산으로도 더 낮은 검증 손실을 기록하며 우수한 성능을 입증했습니다.
핵심 포인트
- 어텐션을 토러스 상의 위상과 복소 결합 커널을 사용하는 FSN으로 구현
- 다음 토큰 예측을 데이터에 의해 좌절된 동기화 과정으로 정의
- 100만~400만 파라미터 규모에서 RoPE-SwiGLU Transformer보다 낮은 손실률 기록
- MLP를 평균장 결합(mean-field coupling)으로 대체하여 Transformer 성능 추적 가능
완벽하게 동기화되는 진동자(oscillator) 네트워크는 그 이상의 아무것도 계산하지 못하므로, 동기화로부터 구축된 어텐션(attention) 아키텍처는 합의로부터의 구조적인 이탈(structured departures)에서 계산을 찾아내야 합니다. 우리는 토큰 상태가 토러스(torus) 상의 위상(phase)이며, 전체 가치 경로(value pathway)가 고조파(harmonics)와 1단계 지연(one-step delay)에 대한 학습된 복소 결합 커널(complex coupling kernel)인 좌절된 동기화 네트워크(Frustrated Synchronization Network, FSN)를 소개합니다. 커널의 각 구성 요소는 동기화 문헌의 의미에서 '좌절(frustration)'입니다. 복소 위상은 정적인 Kuramoto-Sakaguchi 좌절각(frustration angles)이며, 부호가 있는 고조파는 척력적인 Daido 성분(repulsive Daido components)입니다. 또한, 각 토큰을 해당 토큰이 어텐션하는 토큰의 후속 토큰과 결합하는 지연 항(delay term)은 데이터 자체의 전이(transition)를 좌절각으로 갖는 Kuramoto-Sakaguchi 결합과 대수적으로 동일합니다. 따라서 다음 토큰 예측(next-token prediction)은 데이터에 의해 좌절된 동기화로서 구현됩니다. 문자 수준의 텍스트와 코드에 대해 100만 개의 파라미터 및 학습 예산이 일치하는 조건에서, FSN의 검증 손실(validation loss)은 측정된 모든 에포크(epoch)에서 튜닝된 RoPE-SwiGLU 트랜스포머(transformer)보다 낮았으며, 이 비교는 베이스라인을 수렴할 때까지 학습시킨 후에도 유지되었습니다. 30 에포크마다 수행된 enwik8 시드 테스트 결과는 트랜스포머의 50 에포크 수렴 손실인 1.611보다 낮게 끝났으며, FSN의 완료된 50 에포크 실행은 1.5953 +/- 0.0014로 수렴했습니다. 스택 내에 다층 퍼셉트론(multilayer perceptron, MLP)을 남기지 않고 모든 피드포워드(feed-forward) 블록을 학습된 집단 모드(collective modes)에 대한 평균장 결합(mean-field coupling)으로 대체한 변형 모델은 트랜스포머의 성능을 추적합니다. 자연어 텍스트에서 좌절되지 않은 기본 레이어는 모든 복사 깊이(copy depth)에서 수렴된 트랜스포머에 뒤처지며, 특히 장거리 복사 이벤트(long-range copy events)에서 가장 심했습니다. 그러나 커널은 깊이가 4 이상인 모든 단계에서 이러한 결핍을 역전시킵니다. 주요 비교는 100만 파라미터 규모에서 이루어졌으며, 400만 파라미터까지 규모 확장(scale ladder)을 완료하여 우위가 지속됨을 확인했습니다. 나머지 실험들은 진행 중으로 표시되어 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기