본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 26. 10:55

SamaVaani: 인도 언어를 위한 다국어 임상 ASR의 감사 및 편향 제거

요약

인도 의료 환경의 다국어 임상 ASR 성능을 감사하고 편향을 제거하는 SamaVaani 연구를 소개합니다. 8개의 최첨단 모델을 비교 분석하여 지역 언어 및 인구 통계학적 그룹 간의 성능 격차를 확인했습니다. Gemma3n과 OmniLingual을 미세 조정하여 공정성을 개선하는 통합 편향 제거 기술을 제안합니다.

핵심 포인트

  • 인도 다국어 임상 ASR 모델 8종의 성능 체계적 감사 수행
  • 지역 언어 및 성별/역할에 따른 모델 성능 격차 발견
  • Gemma3n 및 OmniLingual 기반의 미세 조정 연구
  • 성능 향상과 공정성을 동시에 개선하는 SamaVaani 기술 제안

자동 음성 인식 (ASR)은 임상 상담을 기록하는 데 점점 더 많이 사용되고 있지만, 다국어 및 인구 통계학적으로 다양한 인도의 의료 환경에서의 신뢰성은 여전히 상당 부분 알려지지 않았습니다. 본 연구에서는 먼저 Kannada, Hindi 및 Indian English를 아우르는 실제 정신과 인터뷰 데이터를 대상으로 ASR 성능에 대한 체계적인 감사를 수행하였으며, IndicWhisper, WhisperLargeV3, Sarvam, GoogleS2T, Gemma3n, OmniLingual, Vaani, 그리고 Gemini를 포함한 8개의 최첨단 (state-of-the-art) 모델을 비교했습니다. 연구 결과, 모델과 언어 전반에 걸쳐 상당한 변동성이 나타났으며, 일부 시스템은 Indian English에서는 경쟁력 있는 성능을 보였으나 지역 언어(regional speech)에서는 실패하는 모습을 보였습니다. 우리는 더 나아가 가장 성능이 좋은 두 개의 오픈소스 (open-source) 모델인 Gemma3n과 OmniLingual을 다양한 방법으로 미세 조정 (fine-tuning)했습니다. 이를 통해 화자의 역할 및 성별과 관련된 체계적인 성능 격차를 발견하였으며, 이는 임상 환경에서의 공평한 배포에 대한 우려를 불러일으켰으나, 공정성 인식 미세 조정 (fairness-aware fine-tuning)을 통해 이를 더욱 완화했습니다. 이를 위해, 우리는 ASR 성능을 동시에 향상시키고 인구 통계학적 그룹 간의 공정성을 개선하는 통합된 편향 제거 (debiasing) 기술인 SamaVaani를 제안합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0