본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 06. 04:27

신뢰성 지향 다국어 정형외과 진단: 도메인 적응 모델링 및 개념적 검증 프레임워크

요약

본 연구는 영어, 힌디어, 펀자비어 등 저자원이 있는 다국어 환경에서 정형외과 진단 지원의 신뢰성을 평가했습니다. 대규모 언어 모델(LLMs)은 높은 언어적 유창성을 보이지만, 구조화된 다국어 조건 및 특히 저자원 언어에서는 불안정한 보정(calibration)과 낮은 신뢰도를 나타내는 한계가 있음이 밝혀졌습니다. 따라서 연구진은 도메인 적응 전문화와 명시적인 검증 프레임워크를 결합한 개념적 결정론 에이전트 기반의 안전 시스템 구축을 제안합니다.

핵심 포인트

  • LLMs는 언어 유창성은 뛰어나지만, 저자원 다국어 임상 환경에서 신뢰성 및 보정 측면에서 불안정성을 보인다.
  • 도메인 적응(Domain Adaptation) 전문화가 교차 언어적 판별력과 예측 가능한 신뢰도 행동을 크게 개선한다.
  • IndicBERT-HPA와 같은 전문화된 아키텍처는 일반적인 LLM보다 구조화된 진단 분류에서 일관되고 강력한 성능을 보인다.
  • 신뢰할 수 있는 다국어 임상 지원 시스템 구축을 위해 증거 확인, 언어 민감 검증 및 인간 개입(Human-in-the-Loop) 게이팅이 필수적이다.

대규모 언어 모델 (LLMs) 은 저자원이 있는 환경에서의 다국어 진단을 포함한 임상 의사결정 지원에 점점 더 많이 제안되고 있습니다. 그러나, 이러한 모델들의 신뢰성, 보정 (calibration) 및 안전 특성은 구조화된 고위험 작업에 대해 여전히 충분히 이해되지 않았습니다. 우리는 영어, 힌디어, 펀자비어 (Punjabi) 의 무료 텍스트 임상 노트에서 다국어 정형외과 진단을 시스템 수준으로 분석합니다. 우리는 세 가지 모델링 체제를 평가합니다: (i) 작업 정렬 다국어 트랜스포머 인코더, (ii) 작업 미세 조정 기준선 (DistilBERT), 및 (iii) 정형외과 텍스트에 맞춤화된 도메인 적응 아키텍처 (IndicBERT-HPA). 이러한 모델들은 구조화된 진단 분류에 대한 적합성을 평가하기 위해 0-shot, 인스트럭션 튜닝된 LLM 과 비교됩니다. 결과는 LLM 이 강력한 언어적 유창성 (linguistic fluency) 을 보이지만, 구조화된 다국어 조건에서 불안정한 보정과 신뢰성 감소, 특히 저자원이 있는 언어에서 나타낸다는 것을 보여줍니다. 이러한 발견은 0-shot 평가에 특화되어 있으며 미세 조정 모델의 한계를 의미하지 않습니다. 도메인 적응 전문화는 교차 언어적 판별력과 신뢰도 행동 (confidence behavior) 을 크게 개선합니다. 언어 특정 정형외과 어댑터 헤드 (adapter heads) 를 갖춘 IndicBERT-HPA 는 6 개 진단 범주에서 일관되게 강력한 성능을 보이며, 작업에만의 적응보다 더 예측 가능한 배포 특성을 가집니다. 이러한 관찰을 바탕으로, 우리는 미래 구현을 위한 개념적 결정론 에이전트 기반 검증 프레임워크를 제시하며, 증거 확인 (evidence checks), 언어 민감한 검증 및 보수적인 인간-인-더-루프 게이트링 (human-in-the-loop gating) 을 공식화합니다. 신뢰할 수 있는 다국어 임상 의사결정 지원은 전문화된 아키텍처, 명시적인 신뢰성 분석 및 안전 임계 시스템에 대한 구조화된 검증이 필요합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0