arXiv논문2026. 06. 11. 19:09

Lung-SRAD: 호흡 소리 분류를 위한 이중 축 패치-믹스 대조 학습을 적용한 스펙트럼 인식 정규화 오디오 DASS

요약

본 연구는 호흡 소리 분류(RSC)의 한계점을 극복하기 위해 State Space Models (SSMs)를 대안 백본으로 제안합니다. 여기에 스펙트럼 인식 레이어 정규화와 이중 축 패치-믹스 대조 학습을 결합하여 강력한 표현 학습을 수행했습니다. ICBHI 벤치마크에서 AST 대비 성능 향상을 입증하며, 관련 코드를 공개했습니다.

핵심 포인트

RSC 연구의 한계점(AST 기반)을 지적하고 SSM을 대안으로 제시함.
스펙트럼 인식 레이어 정규화와 이중 축 패치-믹스 대조 학습을 결합함.
ICBHI 벤치마크에서 AST 대비 성능 향상(5%p)을 달성함.
관련 코드를 GitHub에 공개하여 접근성을 높임.

최근의 호흡 소리 분류(RSC) 연구들은 주로 Audio Spectrogram Transformer (AST)와 같은 CLS-token 기반의 셀프 어텐션 아키텍처에 의존해 왔습니다. 이 방식은 전역적 맥락 모델링에는 효과적이지만, 최근 분석들에 따르면 국소적인 비정상 패턴에 대한 민감도를 떨어뜨릴 수 있는 저역 통과 필터링(low-pass filtering) 동작을 보인다는 지적이 있습니다. 본 연구에서는 RSC의 대안 백본으로 State Space Models (SSMs)를 탐구합니다. Distilled Audio State Space 모델을 사용하여 스펙트럼 응답 곡선을 통해 중간 표현들을 분석한 결과, 중~고 주파수 공간 성분들이 더 강하게 보존되는 것을 관찰했습니다. 이러한 관찰에 기반하여, 선택된 레이어에 가우시안 컨볼루션(Gaussian convolution)을 적용하는 스펙트럼 인식 레이어 정규화(spectral-aware layer regularization)를 도입합니다. 나아가 SSM 기반 오디오 모델에 맞춘 이중 축 패치-믹스 대조 학습(Dual-Axis Patch-Mix contrastive learning)을 제안하여 강력한 표현 학습을 수행합니다. ICBHI 벤치마크에서 수행된 실험 결과, 저희 접근 방식은 64.48%의 점수를 달성하며 AST 기준선 대비 5% 향상된 성능을 보였습니다. 코드는 https://github.com/RSC-Toolkit/Lung-SRAD에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Lung-SRAD: 호흡 소리 분류를 위한 이중 축 패치-믹스 대조 학습을 적용한 스펙트럼 인식 정규화 오디오 DASS

요약

핵심 포인트

댓글