미분 가능한 Choquet 적분 융합을 이용한 파라미터 효율적 이중 인코더 구조의 수중 음향 분류
요약
수중 음향 분류를 위해 파형과 스펙트로그램을 동시에 처리하는 파라미터 효율적 이중 인코더 구조를 제안합니다. Choquet 적분을 활용한 미분 가능한 퍼지 집계 메커니즘을 통해 두 표현 간의 균형을 맞추고 모델의 해석 가능성을 높였습니다.
핵심 포인트
- 파형과 스펙트로그램을 결합한 이중 인코더 구조 제안
- Choquet 적분을 이용한 미분 가능한 퍼지 집계 메커니즘 도입
- 파라미터 효율적 미세 조정을 통한 계산 비용 절감
- 학습된 퍼지 측도를 통한 모델의 해석 가능성 확보
- DeepShip 및 ShipsEar 데이터셋에서 우수한 성능 입증
수중 음향 분류 (Underwater acoustic classification)는 광범위한 해양 응용 분야를 가지고 있지만, 점점 더 복잡해지는 음향 환경으로 인해 어려움에 직면해 있습니다. 이 분야의 분류 작업을 위한 음향 데이터 특징 (acoustic data features)으로는 주로 파형 (Waveform) 및 스펙트로그램 (spectrogram) 표현 방식이 사용되어 왔습니다. 스펙트로그램은 조화 의존성 (harmonic dependencies)을 모델링하지만, 이러한 축소된 표현 방식은 판별에 중요한 음향 특징을 걸러낼 수 있습니다. 반면 파형의 위상 정보 (phase information)는 신호의 완전한 특성화를 가능하게 하지만, 원래의 파형은 노이즈가 많고 복잡할 수 있어 모델이 직접 처리하기 어렵게 만듭니다. 본 논문은 사전 학습된 백본 (pre-trained backbones)과 파라미터 효율적 미세 조정 (parameter-efficient fine-tuning) 모듈을 활용하여 음향 파형과 스펙트로그램을 동시에 처리하고 도메인 적응 (domain adaptation)을 가능하게 하는 이중 인코더 (dual-encoder) 신경망 구조를 제안합니다. 이러한 적응된 분기들을 결합하기 위해, 시간적 표현과 스펙트럼 표현의 균형을 맞추는 Choquet 적분 (Choquet integral) 기반의 새로운 미분 가능한 퍼지 집계 (differentiable fuzzy aggregation) 메커니즘을 도입합니다. 이 융합 전략은 더 높은 분류 정확도를 제공할 뿐만 아니라 해석 가능성 (interpretability)도 제공합니다. 구체적으로, 학습된 퍼지 측도 (fuzzy measures)를 분석함으로써 네트워크의 표현 의존성에서 나타나는 클래스별 변화에 대한 통찰을 밝혀냅니다. 잠재적인 비대칭 채널 왜곡 (asymmetric channel distortions)에 의해 가장 적게 오염된 표현으로 주의 (attention)를 동적으로 전환함으로써, 제안된 게이팅 메커니즘 (gating mechanism)은 수중 환경의 비정상성 (non-stationary) 문제를 완화합니다. DeepShip 및 ShipsEar 데이터셋에 대한 평가 결과, 제안된 구조는 학습 가능한 파라미터 공간을 제한하는 동시에 독립적인 단일 인코더 (single-encoder) 베이스라인보다 향상된 분류 성능을 달성함을 입증했습니다. 이는 제한된 음향 데이터셋에서의 과적합 (overfitting) 위험을 완화하는 동시에, 파운데이션 모델 (foundation models)을 전체 미세 조정 (fully fine-tuning)할 때 발생하는 계산 비용을 줄여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기