NAACA: 돌출도 기반 주의 집중 게이팅을 위한 진동 작업 기억을 갖춘 훈련이 필요 없는 신경-청각 주의적 인지 아키텍처
요약
NAACA는 긴 오디오 녹음에서 발생하는 주의력 병목 현상을 해결하기 위해 제안된 훈련이 필요 없는 신경-청각 주의적 인지 아키텍처입니다. 신경 모사형 진동 작업 기억(OWM)을 통해 지각적 돌출도가 감지될 때만 고차원 추론을 트리거함으로써 효율적인 주의력 할당을 수행합니다. XD-Violence 데이터셋 실험 결과, 불필요한 모델 호출을 줄이면서도 AudioQwen의 평균 정밀도(AP)를 53.50%에서 70.60%로 크게 향상시켰습니다.
핵심 포인트
- 청각적 돌출도 필터링을 통해 오디오 언어 모델(ALM)의 주의력 병목 현상 해결
- 신경 모사형 진동 작업 기억(OWM)을 활용하여 적응형 에너지 변동 시에만 고차원 추론 유도
- XD-Violence 데이터셋에서 AudioQwen의 평균 정밀도(AP)를 53.50%에서 70.60%로 개선
- 도시 소음 및 일시적 정지 상황에서도 새로운 이벤트와 범주 변화를 견고하게 포착
오디오는 중요한 상황적 단서를 제공하지만, 현재의 오디오 언어 모델 (Audio Language Models, ALMs)은 지배적인 배경 패턴이 드물고 돌출된 (salient) 이벤트를 희석할 수 있는 긴 형식의 녹음에서 주의력 병목 현상 (attention bottleneck)에 직면합니다. 우리는 주의력 할당을 청각적 돌출도 필터링 문제로 재구성하는 훈련이 필요 없는 신경-청각 주의적 인지 아키텍처 (NeuroAuditory Attentive Cognitive Architecture)인 NAACA를 소개합니다. 그 핵심은 안정적인 어트랙터(attractor)와 유사한 상태를 유지하고, 적응형 에너지 변동이 지각적 돌출도 (perceptual salience)를 신호할 때만 고차원 추론을 유발하는 고차 인지 ALM 프로세싱을 트리거하는 신경 모사형 진동 작업 기억 (Oscillatory Working Memory, OWM)입니다. XD-Violence 데이터셋에서 NAACA는 불필요한 ALM 호출을 줄이면서 AudioQwen의 평균 정밀도 (Average Precision, AP)를 53.50%에서 70.60%로 향상시켰습니다. 또한, Urban Soundscapes of the World (USoW) 데이터셋에 대한 정성적 사례 연구는 OWM이 일시적인 일시 정지 및 주변 도시 소음에 견고하게 유지되면서도 새로운 이벤트와 하위 범주 변화를 포착함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기