Lung-SRAD: 호흡 소리 분류를 위한 이중 축 패치-믹스 대조 학습을 적용한 스펙트럼 인식 정규화 오디오 DASS
요약
본 연구는 호흡 소리 분류(RSC)의 한계점을 극복하기 위해 State Space Models (SSMs)를 대안 백본으로 제안합니다. 여기에 스펙트럼 인식 레이어 정규화와 이중 축 패치-믹스 대조 학습을 결합하여 강력한 표현 학습을 수행했습니다. ICBHI 벤치마크에서 AST 대비 성능 향상을 입증하며, 관련 코드를 공개했습니다.
핵심 포인트
- RSC 연구의 한계점(AST 기반)을 지적하고 SSM을 대안으로 제시함.
- 스펙트럼 인식 레이어 정규화와 이중 축 패치-믹스 대조 학습을 결합함.
- ICBHI 벤치마크에서 AST 대비 성능 향상(5%p)을 달성함.
- 관련 코드를 GitHub에 공개하여 접근성을 높임.
최근의 호흡 소리 분류(RSC) 연구들은 주로 Audio Spectrogram Transformer (AST)와 같은 CLS-token 기반의 셀프 어텐션 아키텍처에 의존해 왔습니다. 이 방식은 전역적 맥락 모델링에는 효과적이지만, 최근 분석들에 따르면 국소적인 비정상 패턴에 대한 민감도를 떨어뜨릴 수 있는 저역 통과 필터링(low-pass filtering) 동작을 보인다는 지적이 있습니다. 본 연구에서는 RSC의 대안 백본으로 State Space Models (SSMs)를 탐구합니다. Distilled Audio State Space 모델을 사용하여 스펙트럼 응답 곡선을 통해 중간 표현들을 분석한 결과, 중~고 주파수 공간 성분들이 더 강하게 보존되는 것을 관찰했습니다. 이러한 관찰에 기반하여, 선택된 레이어에 가우시안 컨볼루션(Gaussian convolution)을 적용하는 스펙트럼 인식 레이어 정규화(spectral-aware layer regularization)를 도입합니다. 나아가 SSM 기반 오디오 모델에 맞춘 이중 축 패치-믹스 대조 학습(Dual-Axis Patch-Mix contrastive learning)을 제안하여 강력한 표현 학습을 수행합니다. ICBHI 벤치마크에서 수행된 실험 결과, 저희 접근 방식은 64.48%의 점수를 달성하며 AST 기준선 대비 5% 향상된 성능을 보였습니다. 코드는 https://github.com/RSC-Toolkit/Lung-SRAD에서 이용 가능합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기