본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 17. 11:25

현대적 신경망 구조를 위한 보존 법칙 (Conservation Laws)

요약

경사 하강법 역학에서 나타나는 암묵적 편향을 설명하는 보존 법칙을 현대적 신경망 구조로 확장하는 연구입니다. GELU, SwiGLU, RoPE, MoE 등 최신 아키텍처를 포함하는 통합 프레임워크를 제안하고 이론적 발견을 실험으로 검증합니다.

핵심 포인트

  • 현대적 신경망 구조에서의 경사 흐름 내 보존 법칙 탐구
  • GELU, SiLU, SwiGLU 등 최신 활성화 함수 분석
  • RoPE 및 MoE 구조를 포함하는 통합 프레임워크 개발
  • 이론적 불변량(invariants)에 대한 실험적 검증 완료

경사 하강법 (gradient descent) 역학을 이해하는 것은 과잉 매개변수화된 (over-parameterized) 모델의 성공을 설명하는 핵심이며, 여기서 암묵적 편향 (implicit bias)은 경사 흐름 (gradient flow) 내의 보존 법칙 (conservation laws)을 통해 나타납니다. 이러한 법칙은 선형 및 ReLU 네트워크에 대해서는 잘 이해되어 있지만, 현대적 구조 (modern architectures)에 대해서는 여전히 대부분 탐구되지 않은 상태로 남아 있습니다. 본 연구는 GELU, SiLU, SwiGLU 활성화 함수를 사용하는 피드포워드 네트워크 (feedforward networks), 정현파 (sinusoidal) 및 회전형 위치 인코딩 (rotary positional encodings)을 사용하는 멀티헤드 어텐션 (multihead attention), 그리고 다양한 게이팅 설계 하의 전문가 혼합 (Mixture-of-Experts) 구조를 포함한 현대적 모델들의 보존 법칙을 특징짓기 위한 통합 프레임워크를 개발합니다. 우리의 이론적 발견은 예측된 불변량 (invariants)을 검증하는 실험을 통해 뒷받침됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0