스파이킹 신경망 (SNN)을 위한 적응형 음성-스파이크 인코딩 (Adaptive Speech-to-Spike Encoding)
요약
뉴로모픽 음성 처리를 위해 R-LIF 백본과 학습 가능한 잔차 음성-스파이크 인코더를 결합한 새로운 접근 방식을 제안합니다. GSC-v2 벤치마크에서 높은 정확도를 달성했으며, 매개변수 효율적인 방식으로 기존 모델 대비 뛰어난 성능을 입증했습니다.
핵심 포인트
- 학습 가능한 잔차 인코더를 통한 적응형 스파이크 표현 구현
- GSC-v2 벤치마크에서 최대 94.97%의 높은 정확도 달성
- 매우 적은 매개변수(35k)로도 기존 베이스라인과 대등한 성능 확보
- DFA와 surrogate-gradient BPTT를 통한 생체 모방 학습 규칙 비교 분석
연속적인 음향 신호와 이산적인 이벤트 기반 처리 (event-driven processing) 사이의 불일치는 뉴로모픽 음성 처리 (neuromorphic speech processing)의 근본적인 병목 현상으로 남아 있습니다. 현재의 시스템들은 일반적으로 고정된 스파이크 인코더 (spike encoders)에 의존하며, 이로 인해 하위 단계의 스파이킹 신경망 (SNNs)은 비적응형 입력 표현 (non-adaptive input representations)을 보완해야만 합니다. 이를 해결하기 위해, 우리는 순환 리키 통합-발화 (Recurrent Leaky Integrate-and-Fire, R-LIF) 백본과 종단간 (end-to-end) 공동 학습되는 학습 가능한 잔차 음성-스파이크 인코더 (learnable residual speech-to-spike encoder)를 제시합니다. 우리는 Google Speech Commands v2 (GSC-v2) 벤치마크에서 이 접근 방식을 검증하였으며, 최대 94.97%의 정확도를 달성했습니다. 특히, 학습된 인코더는 매우 매개변수 효율적 (parameter-efficient)이며, 35k 매개변수를 가진 컴팩트한 변형 모델로 89.8%에 도달하여, 10배 더 많은 매개변수를 필요로 하는 이전의 베이스라인 (baselines)들과 대등하거나 이를 능가하는 성능을 보여주었습니다. 선형 프로빙 (linear probing) 및 그래디언트-잔차 검사 (gradient-residual inspection)를 포함한 우리의 인코더 중심 분석은, 인코더가 충실한 신호 재구성 (signal reconstruction)을 목표로 하는 것이 아니라, 클래스 분리성 (class separability)을 향상시키는 작업 정렬된 스파이크 표현 (task-aligned spike representations)을 학습한다는 것을 나타냅니다. 마지막으로, 우리는 동일한 아키텍처와 학습 조건 하에서 직접 피드백 정렬 (Direct Feedback Alignment, DFA)과 대리 그래디언트 BPTT (surrogate-gradient BPTT)를 비교함으로써 생체 모방적이고 하드웨어 친화적인 신용 할당 (credit assignment)을 벤치마킹합니다. 우리는 DFA가 91.5%의 정확도에 도달함을 발견하였으며, 이는 현대적인 뉴로모픽 오디오를 위한 생체 모방 학습 규칙 (bio-inspired learning rules)의 성능 트레이드오프 (performance trade-off)를 정량화합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기