본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 08:26

Kuramoto Attention: 토러스(Torus) 상에서의 셀프 어텐션 (Self-Attention) 동기화

요약

토러스(Torus) 상에서 위상 동기화를 활용하는 새로운 셀프 어텐션 메커니즘인 Kuramoto Attention을 제안합니다. 이 레이어는 게이트된 코사인 유사도와 원형 평균을 통해 토큰을 업데이트하며, 제약된 기하학적 구조를 가진 실행 가능한 언어 모델임을 입증했습니다.

핵심 포인트

  • 토러스 상의 위상 상태를 활용한 새로운 어텐션 구조 제안
  • Kuramoto 결합 항과 일치하는 적응형 결합 커널 역할 수행
  • RoPE와 유사한 위치 의존적 위상 드리프트 메커니즘 포함
  • 소규모 파라미터 모델에서 기존 Transformer와 대등한 성능 입증

우리는 각 은닉 좌표(hidden coordinate)가 각도(angle)인 셀프 어텐션 (Self-Attention) 레이어인 Kuramoto attention을 소개합니다. 이 레이어는 게이트된 코사인 유사도(gated cosine similarity)를 통해 토큰의 점수를 매기고, 이전 위상 상태(phase states)에 대해 어텐션(attend)하며, 어텐션 가중치가 적용된 원형 평균(circular mean)의 탄젠트 성분(tangent component)을 통해 각 토큰을 업데이트합니다. 값들이 가공되지 않은 위상 상태(raw phase states)이기 때문에, 이 업데이트는 어텐션 행렬이 적응형이며 콘텐츠 의존적인 결합 커널(coupling kernel) 역할을 하는 Kuramoto 결합 항 $\sum_u A_{t,u}\sin(θ_u-θ_t)$와 정확히 일치합니다. 동등하게 표현하자면, 게이트된 점수(gated score)는 어떤 토큰을 결합할지 선택하는 토러스 (torus) 상의 학습된 메트릭(metric)이며, 업데이트는 각 토큰을 선택된 토큰들의 원형 평균으로 끌어당겨 위상 일치(phase agreement)를 강화합니다. 불변 유사도 점수(invariant similarity score)와 매니폴드 상의 평균(on-manifold mean)이라는 동일한 두 가지 요소는 임의의 컴팩트 군 (compact group) 상에서 이러한 레이어를 정의합니다. 토러스 (torus)는 이 두 가지가 모두 폐형식(closed-form)으로 존재하는 아벨 군 (abelian case)입니다. 소프트맥스 (softmax) 가중치는 엔트로피 정규화된 위상 복원 (phase-retrieval) 문제를 해결하며, 회전 위치 임베딩 (Rotary Position Embedding, RoPE)은 점수 내에서 위치 의존적인 위상 드리프트 (phase drift)로 들어갑니다. enwiki8 문자 수준 언어 모델링 (character-level language modeling)에서, 이 레이어는 강력한 매칭 모델인 RoPE+SwiGLU 트랜스포머 (transformer)와 유사한 BPC (bits-per-character)를 유지하는 기능적 언어 모델로 학습됩니다. 100만 파라미터 규모에서 $0.02$ BPC 이내의 차이($1.637\pm0.010$ 대 $1.616\pm0.004$)를 보였으며, 500만 파라미터 규모의 중앙값에서는 대등한 수준($5$개 시드 기준 $1.448$ 대 $1.452$)을 기록했으나, 평균값에서는 트랜스포머가 앞섰습니다 ($1.468$ 대 $1.456$). 이러한 실험은 제약된 기하학적 구조 (constrained geometric structure)가 이 규모에서 실행 가능한 언어 모델임을 입증합니다. 구조 그 자체와 그 동기화(synchronization)에 대한 해석이 본 연구의 기여점입니다. 절제 연구 (Ablations)를 통해 핵심 구성 요소를 분리하였으며, 결과적으로 셀프 어텐션 (self-attention)과 위상 동기화 (phase synchronization) 사이의 간결한 가교를 제시합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0