arXiv논문2026. 06. 15. 11:21

구조적 가지치기(Structured Pruning) 및 저비트 양자화(Low-Bit Quantization)를 통한 신경망 화자

요약

의료 긴급 상황을 위한 스트리밍 화자 분할 모델의 압축 기술을 연구합니다. 구조적 가지치기와 저비트 양자화를 통해 모델 크기를 줄일 때 발생하는 성능 저하와 지연 시간 간의 트레이드오프를 분석합니다.

핵심 포인트

구조적 가지치기 및 저비트 양자화를 통한 모델 압축 연구
지연 시간 예산에 따른 스트리밍 성능 특성화
모델 압축 시 메모리 절약과 성능(DER) 간의 트레이드오프 확인
실시간 배포를 위한 최적의 동작 지점 탐색

스트리밍 화자 분할(Streaming speaker diarization)은 시간이 촉박한 의료 긴급 출동(medical dispatch) 상황에서 매우 중요하지만, 자원이 제한된 하드웨어에 이를 배포하려면 더 작고 빠른 모델이 필요합니다. 우리는 모의 의료 긴급 출동 대화 데이터셋인 SIMSAMU를 사용하여, 가지치기(pruning) 및 저비트 양자화(low-bit quantization)로 세그멘테이션(segmentation) 모델을 압축하기 전에 스트리밍 동작을 평가합니다. 우리는 다양한 스트리밍 지연 시간 예산(latency budgets)에 따른 성능을 특성화하였으며, 추가적인 버퍼링(buffering)이 일관되게 유익하지는 않다는 점과 매우 낮은 지연 시간의 동작 지점(operating points)에서는 성능이 상당히 저하될 수 있다는 점을 발견했습니다. 우리의 연구는 모델 압축이 메모리 점유율(memory footprint)을 위해 성능을 희생한다는 것을 보여주며, FP16을 사용하여 실시간 계수(real-time factor)를 거의 변화시키지 않으면서 모델 크기를 절반으로 줄이는 대신 베이스라인 대비 상대적 DER(Diarization Error Rate)이 40% 증가하는 동작 지점을 강조합니다. 본 연구는 실시간 배포를 위한 트레이드오프를 특성화하며, 시간이 촉박한 상황에서 신뢰할 수 있는 인간 통신을 가능하게 하는 음성 기술에 기여합니다.

AI 자동 생성 콘텐츠

원문 바로가기

구조적 가지치기(Structured Pruning) 및 저비트 양자화(Low-Bit Quantization)를 통한 신경망 화자

요약

핵심 포인트

댓글