신뢰성 지향 다국어 정형외과 진단: 도메인 적응 모델링 및 개념적 검증 프레임워크

대규모 언어 모델 (LLMs) 은 저자원이 있는 환경에서의 다국어 진단을 포함한 임상 의사결정 지원에 점점 더 많이 제안되고 있습니다. 그러나, 이러한 모델들의 신뢰성, 보정 (calibration) 및 안전 특성은 구조화된 고위험 작업에 대해 여전히 충분히 이해되지 않았습니다. 우리는 영어, 힌디어, 펀자비어 (Punjabi) 의 무료 텍스트 임상 노트에서 다국어 정형외과 진단을 시스템 수준으로 분석합니다. 우리는 세 가지 모델링 체제를 평가합니다: (i) 작업 정렬 다국어 트랜스포머 인코더, (ii) 작업 미세 조정 기준선 (DistilBERT), 및 (iii) 정형외과 텍스트에 맞춤화된 도메인 적응 아키텍처 (IndicBERT-HPA). 이러한 모델들은 구조화된 진단 분류에 대한 적합성을 평가하기 위해 0-shot, 인스트럭션 튜닝된 LLM 과 비교됩니다. 결과는 LLM 이 강력한 언어적 유창성 (linguistic fluency) 을 보이지만, 구조화된 다국어 조건에서 불안정한 보정과 신뢰성 감소, 특히 저자원이 있는 언어에서 나타낸다는 것을 보여줍니다. 이러한 발견은 0-shot 평가에 특화되어 있으며 미세 조정 모델의 한계를 의미하지 않습니다. 도메인 적응 전문화는 교차 언어적 판별력과 신뢰도 행동 (confidence behavior) 을 크게 개선합니다. 언어 특정 정형외과 어댑터 헤드 (adapter heads) 를 갖춘 IndicBERT-HPA 는 6 개 진단 범주에서 일관되게 강력한 성능을 보이며, 작업에만의 적응보다 더 예측 가능한 배포 특성을 가집니다. 이러한 관찰을 바탕으로, 우리는 미래 구현을 위한 개념적 결정론 에이전트 기반 검증 프레임워크를 제시하며, 증거 확인 (evidence checks), 언어 민감한 검증 및 보수적인 인간-인-더-루프 게이트링 (human-in-the-loop gating) 을 공식화합니다. 신뢰할 수 있는 다국어 임상 의사결정 지원은 전문화된 아키텍처, 명시적인 신뢰성 분석 및 안전 임계 시스템에 대한 구조화된 검증이 필요합니다.

Insights

신뢰성 지향 다국어 정형외과 진단: 도메인 적응 모델링 및 개념적 검증 프레임워크

요약

핵심 포인트

댓글

GPT-5.6 완전 가이드: Sol, Terra, Luna의 성능, 가격 및 사용 권장 사항

T. Rowe Price의 Love, 소형주 수익성이 개선되고 있다고 말하다

운영 환경에서 OpenRouter 실행하기: 무엇이 고장 나고, 무엇이 작동하며, 내가 다르게 할 일들

또 다른 암호화폐 기업이 비트코인 보유량을 매각하다

GPT-5.6 완전 가이드: Sol, Terra, Luna의 성능, 가격 및 사용 권장 사항

T. Rowe Price의 Love, 소형주 수익성이 개선되고 있다고 말하다

운영 환경에서 OpenRouter 실행하기: 무엇이 고장 나고, 무엇이 작동하며, 내가 다르게 할 일들

또 다른 암호화폐 기업이 비트코인 보유량을 매각하다