신경망의 데이터 대칭성으로부터 도출되는 보존 법칙
요약
훈련 데이터의 내재적 대칭성이 신경망의 경사 흐름 훈련 과정에서 보존량을 유도하는지 탐구합니다. MSE 손실 함수와 데이터 증강 시 발생하는 추가 보존량을 설명하기 위해 텐서화 가능한 네트워크 프레임워크를 제안합니다.
핵심 포인트
- 데이터 대칭성이 경사 흐름 중 보존량을 유도하는지 증명
- MSE 손실 함수에서 데이터 증강 시 추가 보존량 발생 가능성 확인
- 텐서화 가능한 네트워크를 활용한 분석 프레임워크 구축
- Lightning Attention 등 다양한 아키텍처에 적용 가능한 이론
우리는 훈련 데이터의 내재적 대칭성 (intrinsic symmetries)이 신경망의 경사 흐름 (gradient-flow) 훈련 과정 동안 보존량 (conserved quantities)을 유도하는지 탐구합니다. 손실 함수 (loss function)가 해석적 (analytic)이고 비다항식 (non-polynomial)이라는 가정하에, 우리는 데이터 대칭성이 일반적으로 어떠한 추가적인 운동 적분 (integrals of motion)도 유도하지 않음을 증명합니다. 반면, 평균 제곱 오차 (MSE) 손실의 경우, 데이터 증강 (data augmentation)이 추가적인 보존량을 생성하는 상황이 존재합니다. 우리는 이러한 현상을 설명하기 위해 텐서화 가능한 네트워크 (tensorizable networks)를 활용하는 프레임워크를 구축합니다. 텐서화 가능한 네트워크는 매개변수 (parameters)와 입력값 (inputs)에 대한 의존성을 중간 표현 (intermediate representation)을 사용하여 분리할 수 있는 아키텍처 군을 의미합니다. 여기에는 선형 및 다항식 네트워크 (linear and polynomial networks)뿐만 아니라 Lightning Attention이 포함됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기