부피 가설(Volume Hypothesis)의 재고

현대의 심층 신경망 (Deep Neural Networks)은 종종 훈련 데이터를 맞추는 데 필요한 것보다 훨씬 더 많은 매개변수 (Parameters)를 포함하고 있음에도 불구하고, 인상적인 일반화 (Generalization) 성능을 달성합니다. 이러한 성공에 대한 흔한 설명은 확률적 경사 하강법 (Stochastic Gradient Descent, SGD)의 암묵적 편향 (Implicit Bias)입니다. 대안적인 부피 가설 (Volume Hypothesis)은 훈련 손실 (Training-loss)이 낮은 영역 내에서, 강력한 일반화로 이어지는 손실 경관 (Loss-landscape)의 분지 (Basins)가 일반화 성능이 낮은 분지보다 가중치 공간 (Weight space)에서 훨씬 더 큰 영역을 차지하며, 따라서 SGD가 단순히 전자에 도달할 가능성이 더 높다고 가정합니다. 이 아이디어에 대한 최근의 실험적 탐구들은 겉보기에 모순되는 결과들을 제시합니다. 한 세트의 실험에서는 훈련 오차 (Training error)가 0이 될 때까지 네트워크 가중치를 무작위로 샘플링했을 때 낮은 일반화 성능을 보였으나, 분자 역학 밀도 추정 (Molecular dynamics density estimates)은 부피 가설을 지지했습니다. 우리는 이러한 실험들이 서로 다른 데이터셋 크기 영역 (Dataset size regimes)에서 수행되었음을 관찰하였으며, 이진 네트워크 (Binary networks)에서 훈련 정확도와 테스트 정확도에 대한 결합 상태 밀도 (Joint density of states)를 추정하기 위해 레플리카 교환 왕-랜도 (Replica Exchange Wang-Landau) 알고리즘을 사용하여 중간 영역을 탐구합니다. 여러 아키텍처와 데이터셋에 걸쳐, 우리는 무작위 샘플링 훈련에 비해 경사 학습 (Gradient learning)이 갖는 일반화 이점이 훈련 데이터 크기가 커짐에 따라 일반적으로 감소함을 보여주며, 이는 역설의 해결을 시사합니다.

Insights

부피 가설(Volume Hypothesis)의 재고

요약

핵심 포인트

댓글

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법