단일 계층 스파이킹 신경망에서의 수지상 돌기 인컨텍스트 학습 (Dendritic In-Context Learning)
요약
스파이킹 신경망(SNN)에서 인컨텍스트 학습(ICL)을 구현하기 위해 수지상 돌기 구획을 계산 기질로 활용하는 DendriCL 아키텍처를 제안합니다. 단일 계층 구조만으로도 기존 Transformer 모델보다 안정적인 ICL 성능을 보여줍니다.
핵심 포인트
- 수지상 돌기 구획을 수동적 통로가 아닌 계산 기질로 재정의
- DendriCL은 단일 계층으로도 범용 ICL 구현 가능
- Garg-2022 벤치마크에서 Transformer 대비 높은 시드 안정성 입증
- ICL이 어텐션이나 깊이 없이도 역학 내에 구조적으로 내장될 수 있음을 증명
인컨텍스트 학습 (In-context learning, ICL)은 현대 AI 아키텍처인 Transformers, Mamba, 상태 공간 모델 (state-space models), 그리고 MLP의 순전파 (forward pass) 과정에 내장된 암시적 경사 하강법 (implicit gradient descent)을 통해 작동합니다. 이러한 능력을 생물학적으로 타당한 스파이킹 신경망 (Spiking Neural Networks, SNNs)에서 구현하는 것은 여전히 해결되지 않은 과제로 남아 있습니다. 기존의 SNN들은 유의미한 작업 차원 (task dimensions)에서 Garg-2022 벤치마크를 통과하지 못합니다. 우리는 이러한 실패의 원인을 구조적 가정에서 찾았습니다. 기존의 SNN 설계는 수지상 돌기 구획 (dendritic compartment)을 오류나 교사 신호(teacher signals)를 전달하는 수동적인 통로로 간주하며, 적응 (adaptation) 과정을 추론 시간의 시냅스 가소성 (synaptic plasticity)을 통해 경로를 설정하도록 설계되었습니다. 우리는 이 가정에 도전합니다. 단일 수지상 돌기 구획의 역치 미만 역학 (subthreshold dynamics)은 이미 완전한 온라인 학습 알고리즘을 구현하고 있습니다. 구획을 수동적인 통로가 아닌 계산 기질 (computational substrate)로 취급함으로써, 우리는 DendriCL을 제안합니다. 이는 정점 재귀 (apical recurrence)가 구조적으로 누출형 온라인 Widrow-Hoff LMS와 동일한 단일 계층 구획형 스파이킹 아키텍처입니다. 이러한 역학 중심의 업데이트는 범용 ICL에 필요한 아키텍처 깊이를 단일 계층으로 축소합니다. DendriCL은 초차원적 Garg-2022 ICL에서 독보적인 시드 안정성 (seed-stable)을 보입니다. 밀집형 Transformers가 grokking 스타일의 불안정성을 보이며 중간 정도의 작업 차원을 넘어서면 실패하는 것과 대조적입니다. 또한 선형 프로브 (linear probe)를 통해 정점 막 (apical membrane)에서 직접 참조 온라인-LMS 궤적을 $R^2 = 0.93$의 정확도로 복구할 수 있으며, 이는 해당 알고리즘이 훈련 중에 암시적으로 발견되는 것이 아니라 역학 내에 구조적으로 내장되어 있음을 보여줍니다. 종합하면, ICL은 어텐션 (attention), 깊이, 또는 추론 시간의 가소성을 필요로 하지 않습니다. 온라인-LMS 역학을 가진 단일 구획만으로도 충분합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기