본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 06. 07:51

ICASSP 2025 SDE 챌린지: 생성적 임펄스 응답 증강을 통한 화자 거리 추정 개선

요약

본 기사는 ICASSP 2025의 화자 거리 추정(SDE) 챌린지에 참여하여, 생성적 임펄스 응답 증강을 통해 모델 성능을 개선하는 방법을 제시합니다. 연구진은 오픈 소스 FastRIR과 품질 필터를 활용하여 가상 환경에서 현실적인 Room Impulse Response (RIR) 데이터를 생성하고, 이를 이용해 SDE 모델을 미세 조정(fine-tuning)했습니다. 그 결과, 증강된 데이터셋이 특히 중거리 및 장거리 화자 거리 추정의 정확도를 크게 향상시키는 것을 입증했습니다.

핵심 포인트

  • ICASSP 2025 SDE 챌린지에서 생성적 임펄스 응답(RIR) 증강 기법을 적용하여 성능 개선을 시도함.
  • 오픈 소스 FastRIR과 품질 필터를 사용하여 화자 위치 기반의 조건부 RIR 데이터를 생성하고 데이터셋을 보충함.
  • 증강된 데이터로 SDE 모델을 미세 조정(fine-tuning)함으로써, 특히 중거리 및 장거리 거리 추정 정확도를 크게 향상시킴.
  • 실험 결과, 특정 환경에서 평균 절대 오차(MAE)를 기존 대비 현저히 낮추는 성과를 달성함.

ICASSP 2025 의 Room Acoustics and Speaker Distance Estimation (SDE) Challenge 는 증강된 room impulse response (RIR) 데이터가 SDE 모델 성능 향상에 효과적인지를 탐구합니다. GenDARA 챌린지는 희소 데이터셋을 보충하기 위해 RIRs 를 생성하고, 증강 데이터를 사용하여 SDE 모델을 fine-tuning 합니다. 우리는 화자와 수신자 위치만으로 조건부인 오픈 소스 fast diffuse room impulse response generator (FastRIR) 을 사용합니다. 품질 필터를 설계하여 생성된 RIR 이 챌린지 RIR 과의 정렬을 보장하고, hyperparameter optimization 을 모델 fine-tuning 에 적용합니다. 우리의 접근법은 GWA 방에서 5 개의 위치 평균 절대 오차 (MAE) 를 1.66m 에서 0.6m 로 줄이고, Treble 방에서는 2.18m 에서 0.69m 로 줄였습니다. 증강 접근법이 특히 중거리 및 장거리에서 추정 정확도를 크게 향상시킨다는 것을 결과물이 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0