arXiv논문2026. 06. 26. 10:55

SamaVaani: 인도 언어를 위한 다국어 임상 ASR의 감사 및 편향 제거

요약

인도 의료 환경의 다국어 임상 ASR 성능을 감사하고 편향을 제거하는 SamaVaani 연구를 소개합니다. 8개의 최첨단 모델을 비교 분석하여 지역 언어 및 인구 통계학적 그룹 간의 성능 격차를 확인했습니다. Gemma3n과 OmniLingual을 미세 조정하여 공정성을 개선하는 통합 편향 제거 기술을 제안합니다.

핵심 포인트

인도 다국어 임상 ASR 모델 8종의 성능 체계적 감사 수행
지역 언어 및 성별/역할에 따른 모델 성능 격차 발견
Gemma3n 및 OmniLingual 기반의 미세 조정 연구
성능 향상과 공정성을 동시에 개선하는 SamaVaani 기술 제안

자동 음성 인식 (ASR)은 임상 상담을 기록하는 데 점점 더 많이 사용되고 있지만, 다국어 및 인구 통계학적으로 다양한 인도의 의료 환경에서의 신뢰성은 여전히 상당 부분 알려지지 않았습니다. 본 연구에서는 먼저 Kannada, Hindi 및 Indian English를 아우르는 실제 정신과 인터뷰 데이터를 대상으로 ASR 성능에 대한 체계적인 감사를 수행하였으며, IndicWhisper, WhisperLargeV3, Sarvam, GoogleS2T, Gemma3n, OmniLingual, Vaani, 그리고 Gemini를 포함한 8개의 최첨단 (state-of-the-art) 모델을 비교했습니다. 연구 결과, 모델과 언어 전반에 걸쳐 상당한 변동성이 나타났으며, 일부 시스템은 Indian English에서는 경쟁력 있는 성능을 보였으나 지역 언어(regional speech)에서는 실패하는 모습을 보였습니다. 우리는 더 나아가 가장 성능이 좋은 두 개의 오픈소스 (open-source) 모델인 Gemma3n과 OmniLingual을 다양한 방법으로 미세 조정 (fine-tuning)했습니다. 이를 통해 화자의 역할 및 성별과 관련된 체계적인 성능 격차를 발견하였으며, 이는 임상 환경에서의 공평한 배포에 대한 우려를 불러일으켰으나, 공정성 인식 미세 조정 (fairness-aware fine-tuning)을 통해 이를 더욱 완화했습니다. 이를 위해, 우리는 ASR 성능을 동시에 향상시키고 인구 통계학적 그룹 간의 공정성을 개선하는 통합된 편향 제거 (debiasing) 기술인 SamaVaani를 제안합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SamaVaani: 인도 언어를 위한 다국어 임상 ASR의 감사 및 편향 제거

요약

핵심 포인트

댓글