뉴런 집단은 규모에 따라 분산된 선택성을 나타낸다
요약
신경망 내 Rosetta Neurons가 모델 규모에 따라 어떻게 진화하는지 분석한 연구입니다. 모델 크기가 커질수록 Rosetta Neurons의 절대적 수는 늘어나지만 비율은 줄어들며, 더욱 선택적이고 단일 의미적인 특성을 갖는 양극화 현상이 나타납니다.
핵심 포인트
- Rosetta Neurons는 모델 규모에 따라 하위 선형 멱법칙을 따름
- 규모가 커질수록 뉴런의 선택성과 단일 의미성이 증가하는 양극화 발생
- 모델 크기와 뉴런의 보편성, 선택성, 전문화 사이의 관계 규명
- 타겟 데이터 필터링을 통한 뉴런의 도메인 특화 가능성 입증
우리는 손실(loss)과 같은 거시적 관측 가능 지표를 넘어, 신경망(neural networks) 내의 뉴런 집단이 규모(scale)에 따라 예측 가능하게 진화하는지 조사합니다. 이 질문을 탐구하기 위해, 우리는 독립적으로 훈련된 모델들 사이에서 활성화 패턴이 유사한 것으로 이전에 특징지어진 뉴런 클래스인 Rosetta Neurons를 연구합니다 (Dravid et al., 2023). 최대 30B 파라미터의 언어 모델(language models)과 최대 5B 파라미터의 시각 모델(vision models)에 대한 별도의 분석을 통해, 우리는 Rosetta Neurons의 집단이 모델 크기에 따라 하위 선형 멱법칙(sublinear power law)을 따르며, 절대적인 수는 증가하지만 전체 뉴런 수에서 차지하는 비율은 줄어든다는 것을 관찰했습니다. 우리는 더 나아가 뉴런 양극화 효과(Neuron Polarization Effect)를 관찰했습니다. 즉, Rosetta Neurons는 규모가 커짐에 따라 더 선택적(selective)이고 점점 더 단일 의미적(monosemantic)이 되는 반면, 선택성이 낮은 상태로 남아 있는 증가하는 비-Rosetta(non-Rosetta) 집단과는 분리됩니다. 특징의 유용성(feature utility)과 제한된 뉴런 용량(neuron capacity) 사이의 균형을 맞추는 분석 모델은 이러한 하위 선형 멱법칙 스케일링과 양극화 효과를 설명합니다. 마지막으로, 우리는 Rosetta Neurons가 규모에 따라 더 도메인 특화(domain-specialized)된다는 것을 발견했으며, 지속적 사전 학습(continued pretraining)을 위한 타겟 데이터 필터링 사례 연구를 통해 이들의 선택성을 입증합니다. 우리의 결과는 해석 가능한 공유 뉴런 수준 구조에 대한 스케일링 법칙(scaling law)을 제시하며, 모델 크기를 뉴런의 보편성(universality), 선택성(selectivity), 그리고 전문화(specialization)의 체계적인 변화와 연결합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기