ArogyaSutra: 인도 언어 기반 멀티모달 의료 추론을 위한 다중 에이전트 프레임워크
요약
본 논문은 다국어 및 저자원 시나리오에서의 의료 추론 성능 한계를 극복하기 위해 개발되었습니다. 연구진은 영어와 7개 인도 언어를 포함하는 대규모 멀티모달 데이터셋 ArogyaBodha를 구축했습니다. 이를 기반으로, 단계별 추론과 이중 메모리를 통합한 다중 에이전트 프레임워크인 ArogyaSutra를 제안합니다.
핵심 포인트
- 다국어/저자원 의료 분야의 AI 접근성 격차 해소에 초점
- 영어와 7개 인도 언어를 포함하는 대규모 멀티모달 데이터셋 구축 (ArogyaBodha)
- 이중 메모리 및 actor-critic 기반 다중 에이전트 프레임워크(ArogyaSutra) 제안
멀티모달 대규모 언어 모델(MLLMs)은 일반 영역에서 유망한 추론 능력을 보여주었지만, 특히 다국어 및 저자원 시나리오와 같은 전문 분야에서는 성능이 제한적입니다. 이러한 격차는 환자들이 종종 복잡한 의료 질문을 모국 인도 언어로 표현하고 의료 이미지와 같은 멀티모달 입력을 의존하는 인도 농촌 지역과 같은 곳에서 매우 중요합니다. 기존의 영어 중심 MLLMs는 이러한 사용 사례를 지원하는 데 어려움을 겪어, AI 기반 의료 지원에 대한 공평한 접근성을 제한합니다. 이 문제를 해결하기 위해, 우리는 8개의 이질적인 출처에서 구축된 대규모 다국어 멀티모달 의료 질의응답 데이터셋인 ArogyaBodha를 소개하며, 이는 영어와 7개 주요 인도 언어를 아우르며 31개 신체 시스템, 6가지 이미징 모달리티, 그리고 21개 임상 영역을 다룹니다. 나아가 우리는 도구 접지(tool grounding)를 이중 메모리 메커니즘과 통합하여 단계별 추론 인식 의사 결정을 수행하고, 저장된 actor-critic 시뮬레이션 궤적을 증류에 사용하는 actor-critic 기반의 다중 에이전트 프레임워크인 ArogyaSutra를 제안합니다. 실험 결과는 우리의 데이터셋과 프레임워크가 모든 인도 언어에서 다국어 의료 추론 정확도를 향상시키며, 제거(ablation) 분석은 각 구성 요소의 기여도를 검증함을 보여줍니다. 소스 코드와 데이터셋은 다음에서 이용 가능합니다: https://iitp-cse.github.io/ ArogyaSutra/
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기