arXiv논문2026. 05. 13. 11:05

신경망 가중치 노름 = 콜모고로프 복잡도

요약

본 논문은 루프형 신경망의 최소 가중치 노름이 출력 문자열의 콜모고로프 복잡도의 로그 인자 차이에 같다는 것을 증명합니다. 이는 가중치 감쇠(weight decay)가 계산 가능한 함수에 대한 최적 사전 확률인 솔로몬오프 보편 사전 확률과 다항식 인자 차이까지 일치하는 사전을 유도함을 의미하며, 노름의 종류와 무관하게 성립하는 일반적인 경계입니다. 이 결과는 고정 정밀도(fixed precision) 환경에서만 유효하며, 신경망 가중치를 프로그램으로 인코딩하고 로그 주소 지정 오버헤드를 통해 설명할 수 있다는 두 가지 핵심 축소 과정을 활용합니다.

핵심 포인트

신경망의 최소 가중치 노름은 출력 문자열의 콜모고로프 복잡도와 밀접하게 관련되어 있습니다.
가중치 감쇠는 계산 가능한 함수에 대한 최적 사전 확률(솔로몬오프 보편 사전 확률)을 유도하는 효과를 갖습니다.
이 경계는 사용되는 노름(norm)의 종류에 관계없이 성립하며, 고정 정밀도 환경에서만 유효합니다.
신경망 가중치를 프로그램으로 인코딩하고 로그 주소 지정 오버헤드를 통해 설명할 수 있다는 것이 핵심 증명 과정입니다.

가중치 감쇠(weight decay)는 왜 작동하는가? 우리는 임의의 고정 정밀도 체제에서 이진 문자열을 출력하는 루프형 신경망의 최소 가중치 노름이 해당 문자열의 콜모고로프 복잡도의 로그 인자 차이에 같다는 것을 증명한다. 이는 가중치 감쇠가 계산 가능한 함수에 대한 최적 사전 확률인 솔로몬오프(Solomonoff)의 보편 사전 확률과 다항식 인자 차이까지 일치하는 사전을 유도함을 의미한다. 이 결과는 노름에 구애받지 않는다: 고정 정밀도에서 모든 가중치 노름은 상수 배를 제외하고 0이 아닌 매개변수 개수로 수렴하므로, 어떤 규제자로 사용되는 노름에도 동일한 샌드위치 경계(sandwich bound)가 성립한다. 이 증명에는 두 가지 짧은 축소 과정이 있다: 범용 튜링 기계를 위한 모든 프로그램은 프로그램 비트당 단위 비용으로 신경망 가중치에 인코딩될 수 있고, 임의의 고정 정밀도 네트워크는 0이 아닌 매개변수를 열거하고 로그 주소 지정 오버헤드를 통해 설명될 수 있다. 두 경계 모두 상수 배를 제외하고 타이트하며, 로그 인자는 순열 인코딩을 통해 실현된다: 매개변수가 순열을 인코딩하는 네트워크는 콜모고로프 복잡도가 0이 아닌 매개변수 개수에 그 로그 값을 곱한 문자열을 생성한다. 고정 정밀도 가정은 필수적이다: 무한 정밀도에서는 신경망이 비계산 가능한 함수를 인코딩할 수 있으며 가중치 노름의 관련성이 떨어진다.

AI 자동 생성 콘텐츠

원문 바로가기

신경망 가중치 노름 = 콜모고로프 복잡도

요약

핵심 포인트

댓글