SymbolicLight V1: 높은 활성화 희소성(Activation Sparsity)과 10억 미만 규모의 사전 학습 증거를 갖춘 스파이크
요약
SymbolicLight V1은 높은 활성화 희소성과 안정적인 사전 학습을 동시에 달성하기 위해 설계된 스파이킹 언어 모델입니다. LIF 스파이크 역학과 이중 경로(Dual-Path) 구조를 결합하여, 194M 파라미터 규모에서 89% 이상의 희소성을 유지하며 GPT-2 124M을 능가하는 성능을 보여주었습니다.
핵심 포인트
- LIF(Leaky Integrate-and-Fire) 스파이크 역학을 활용하여 단순 희소성을 넘어선 시간적 통합(Temporal Integration) 효과를 구현함
- Dual-Path SparseTCAM 모듈을 통해 장기 기억을 위한 지수적 감쇠 경로와 단기 정밀도를 위한 스파이크 게이트형 로컬 어텐션 경로를 제공함
- 194M 파라미터 모델이 89% 이상의 높은 활성화 희소성을 유지하면서도 우수한 Perplexity(PPL)를 달성함
- 현재 밀집형 하드웨어에서는 추론 속도가 느리지만, 향후 뉴로모픽 하드웨어 배포 시 희소성 기반의 가속 가능성을 제시함
네이티브하게 학습된 스파이킹 언어 모델(Spiking Language Models)은 Transformer와 유사한 언어 품질, 안정적인 다중 도메인 사전 학습(Pre-training), 그리고 높은 활성화 희소성(Activation Sparsity)을 결합하는 데 어려움을 겪고 있습니다. 본 논문에서는 이진 누적-발화(Leaky Integrate-and-Fire, LIF) 스파이크 역학(Spike Dynamics)과 연속적인 잔차 스트림(Continuous Residual Stream)을 결합한 스파이크 게이트형 이중 경로 언어 모델인 SymbolicLight V1을 제시합니다. 이 모델의 Dual-Path SparseTCAM 모듈은 밀집형 셀프 어텐션(Dense Self-attention)을 장기 기억을 위한 지수적 감쇠 집계 경로(Exponential-decay Aggregation Path)와 단기 정밀도를 위한 스파이크 게이트형 로컬 어텐션 경로(Spike-gated Local Attention Path)로 대체하며, 이는 동적 컨텍스트 조건부 디코딩 헤드(Dynamic Context-conditioned Decoding Head)와 이중 언어 토크나이저(Bilingual Tokenizer)에 의해 보완됩니다. 3B-토큰 규모의 중-영(Chinese-English) 코퍼스에서 처음부터 학습된 194M-파라미터 규모의 SymbolicLight V1 모델은 4회의 독립적인 실행 결과, 요소당 89% 이상의 활성화 희소성(Activation Sparsity)을 유지하면서 8.88-8.93의 검증 데이터셋 PPL(Perplexity)에 도달했습니다. 이 모델은 보고된 비교 조건 하에서 GPT-2 124M을 능가하는 한편, GPT-2 201M보다는 PPL 측면에서 7.7% 뒤처집니다. 동일한 0.5B-토큰 학습 예산에서의 구성 요소 절제 연구(Ablation Study) 결과, 스파이크 게이트형 로컬 어텐션 경로가 가장 큰 기여를 한다는 것을 보여주었으며, 동일한 희소성 수준에서 LIF 역학을 결정론적 top-k 마스크(Deterministic top-k mask)로 교체했을 때 더 큰 성능 저하가 발생함을 확인했습니다. 이는 성능을 견인하는 요소가 단순히 희소성만이 아니라 시간적 통합(Temporal Integration)임을 시사합니다. 또한, 최적화 및 희소성 유지의 증거로서 주요 품질 비교 목적이 아닌, 48.8B 토큰으로 학습된 0.8B-파라미터 규모의 확장 실행 결과도 보고합니다. 현재의 밀집형 하드웨어(Dense-hardware) 추론은 GPT-2보다 느리므로, 뉴로모픽(Neuromorphic) 배포는 달성된 하드웨어 가속보다는 향후 희소성 기반의 기회로서 제시됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기