arXiv논문2026. 06. 09. 10:45

신경망 화자 확인 (Speaker Verification) 모델의 학습 및 추론 과정에서의 에너지 및 탄소 배출량 평가

요약

딥러닝 기반 화자 확인(SV) 모델의 학습 및 추론 과정에서 발생하는 에너지 소비와 탄소 배출량을 분석한 연구입니다. 모델의 깊이와 너비가 증가함에 따라 성능 향상 대비 에너지 소비가 급격히 증가하는 수확 체감 지점을 확인했습니다.

핵심 포인트

ResNet 아키텍처의 구조 변화에 따른 환경 영향 평가
모델 규모 확대 시 성능 향상 대비 에너지 소비 급증 확인
성능과 환경 영향 사이의 최적 절충안(Trade-off) 제시
에너지 효율적인 SV 시스템 설계를 위한 가이드라인 제공

딥러닝 화자 확인 (Speaker Verification, SV)은 점점 더 심층 신경망 (Deep Neural Network) 백본에 의존하고 있으나, 이로 인한 환경적 영향은 여전히 기록된 바가 거의 없습니다. 본 논문에서는 VoxCeleb2 데이터셋으로 학습된 ResNet 아키텍처를 대상으로 깊이 (Depth), 채널 너비 (Channel Width), 스테이지 분포 (Stage Distribution)를 변화시키며 평가를 수행하였고, 노드 수준의 센서를 사용하여 에너지 소비량과 탄소 발자국 (Carbon Footprint)을 측정하였습니다. 결과에 따르면 명확한 수확 체감 지점 (Diminishing Returns)이 존재함을 보여줍니다. 즉, 모델이 더 깊어지거나 넓어질수록 정확도 향상은 미미한 반면, 에너지 소비량은 급격히 증가합니다. 이와 대조적으로 ResNet-50과 같은 중간 크기의 네트워크 및 스테이지 집중형 변형 모델들은 성능과 환경적 영향 사이에서 유리한 절충안 (Trade-off)을 달성합니다. 이러한 연구 결과는 에너지 효율적인 SV 시스템을 설계하기 위한 실행 가능한 가이드라인을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

신경망 화자 확인 (Speaker Verification) 모델의 학습 및 추론 과정에서의 에너지 및 탄소 배출량 평가

요약

핵심 포인트

댓글