arXiv논문2026. 06. 04. 11:46

보청기용 임베디드 FPGA 기반 시간 영역 DNN 기반 음성 향상의 타당성 연구

요약

보청기용 임베디드 FPGA 환경에서 SuDoRM-RF++ 아키텍처를 활용한 음성 향상 기술의 타당성을 연구했습니다. AMD-Xilinx Kria KV260을 통해 지연 시간과 전력 제약 조건 내에서의 성능을 분석했습니다.

핵심 포인트

데이터 이동이 시스템 성능의 주요 병목 현상임을 확인
고정 소수점 정밀도 사용 시 음질 저하 없이 메모리 점유율 50% 절감
고정 소수점 잡음 제거 가속기가 임상 임계값인 10ms 이내 지연 시간 달성
음성 분리 작업은 16.0ms의 지연 시간을 기록하여 추가 개선 필요성 확인

보청기(Hearing aids)는 현재의 DNN 기반 음성 향상(Speech enhancement) 시스템이 임베디드 하드웨어에서 충족하기 어려운 엄격한 지연 시간(Latency) 및 전력 제약 조건을 부과합니다. 본 연구에서는 경량 SuDoRM-RF++ 아키텍처를 사용하여 음성 분리(Speech separation)와 잡음 제거(Denoising)를 모두 AMD-Xilinx Kria KV260에 배포함으로써 이러한 격차를 규명하며, 각 작업에 대해 FP32 및 16비트 고정 소수점(Fixed-point) 정밀도로 평가를 수행합니다. 이러한 구성 전반에서 첫 번째 샘플 지연 시간(First-sample latency)은 산술 처리량(Arithmetic throughput)보다는 온칩 파라미터 캐싱(On-chip parameter caching)을 따르며, 이를 통해 데이터 이동(Data movement)이 주요 병목 현상임을 확인했습니다. 정밀도 감소(Precision reduction)는 객관적인 음성 품질을 저하시키지 않으면서 모델 메모리 점유율(Memory footprint)을 절반으로 줄입니다. 고정 소수점 잡음 제거 가속기는 9.7ms의 첫 번째 샘플 지연 시간을 달성하여 임상적 임계값인 10ms를 충족하는 반면, 음성 분리는 16.0ms에 도달합니다. 이러한 측정값은 임베디드 DNN 기반 음성 향상을 위한 구체적인 리소스 요구 사항을 확립하고, 보청기 배포까지 남은 격차를 정량화합니다.

AI 자동 생성 콘텐츠

원문 바로가기

보청기용 임베디드 FPGA 기반 시간 영역 DNN 기반 음성 향상의 타당성 연구

요약

핵심 포인트

댓글