본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 02. 13:03

저계수 아키텍처를 위한 리만 경사 하강법 (Riemannian Gradient Descent)

요약

계수 분해된 행렬 파라미터를 위한 리만 최적화 기법을 탐구하는 연구입니다. 다양한 기하학적 구조와 블록 행렬 변형을 조사하며, 소규모 언어 모델의 멀티헤드 어텐션 파라미터에 적용하여 성능을 검증했습니다.

핵심 포인트

  • 계수 분해 행렬을 위한 리만 경사 하강법 탐구
  • 열 가지 알고리즘 설계 공간 및 기하학적 구조 조사
  • 소규모 언어 모델의 멀티헤드 어텐션에 적용
  • AdamW 베이스라인 대비 결정적인 성능 우위는 미확인

우리는 현대적인 딥러닝 (Deep Learning) 응용 분야를 목표로, 계수 분해된 행렬 파라미터 (Rank-factored matrix parameters)를 위한 리만 최적화 (Riemannian optimization) 기법을 탐구합니다. 우리는 알고리즘 설계 공간에서 열 가지 지점을 조사합니다: 계수 $r$인 행렬을 위한 두 가지 기하학 (Geometries), 계수 $r$인 부분 등거리 사상 (Partial isometries)을 위한 세 가지 기하학, 그리고 요인 (Factors)이 블록 행 (Block-rows)과 블록 열 (Block-columns) 전체에 걸쳐 공유되는 이 다섯 가지의 블록 행렬 (Block-matrix) 변형들입니다. 우리는 우리의 방법을 소규모 언어 모델 (Small language models)의 멀티헤드 어텐션 (Multihead attention) 파라미터에 적용합니다. 학습률 (Learning rates)을 조정한 후에도, 우리의 방법이 AdamW 베이스라인 (Baseline)을 결정적으로 능가하지는 않았습니다. 우리의 구현체는 온라인에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0