arXiv논문2026. 06. 02. 10:13

HypothesisMed: 생물 의학 질의응답을 위한 추론 시간 답변 융합 및 구조화된 가설 공간 보고

요약

생물 의학 질의응답의 정확도뿐만 아니라 파싱 가능성과 신뢰성을 평가하기 위한 HypothesisMed 프레임워크를 제안합니다. 추론 시간 답변 융합과 SPACE 레이블링을 통해 모델의 답변 공간을 구조화하여 진단합니다.

핵심 포인트

HypothesisMed: 추론 시간 신뢰성 파이프라인 제안
SPACE 레이블을 통한 답변 유효성(VALID, INCOMPLETE, CONTRADICTED) 진단
답변 융합을 통해 모델의 정확도 및 파싱 가능성 향상
정확도와 신뢰성 보고 능력이 분리된 역량임을 입증

대규모 언어 모델 (LLM)을 이용한 생물 의학 (Biomedical) 질의응답은 일반적으로 답변 정확도 (answer accuracy)를 사용하여 평가되지만, 답변 정확도만으로는 모델이 파싱 가능한 (parseable) 출력을 생성할 수 있는지, 구조화된 신뢰성 지침을 따를 수 있는지, 취약한 답변 공간을 인식할 수 있는지, 또는 확신에 찬 잘못된 약속 (confident incorrect commitments)을 피할 수 있는지를 나타내지 못합니다. 본 논문은 생물 의학 다지선다형 질의응답을 위한 추론 시간 (inference-time) 신뢰성 파이프라인인 HypothesisMed를 제시합니다. 이는 직접적 (direct) 프롬프팅, 사고의 사슬 (Chain-of-Thought, CoT) 프롬프팅, HypothesisMed-v3 프롬프팅, 그리고 답변 융합 (answer fusion)을 결합합니다. 최종 답변은 융합을 통해 선택되는 반면, HypothesisMed-v3는 SPACE 레이블과 신뢰도 정보를 제공합니다. SPACE 레이블은 답변 공간을 VALID (유효), INCOMPLETE (불완전), 또는 CONTRADICTED (모순)로 표시합니다. 우리는 MedQA, MedMCQA, PubMedQA 데이터셋에 대해 각 데이터셋당 1,000개의 예시를 사용하여 Qwen2.5-7B, Phi-4-mini, DeepSeek-R1-32B, BioMistral-7B를 평가합니다. 이 파이프라인은 파싱 및 SPACE 커버리지를 높이는 동시에, 각 모델의 최선인 직접적 또는 사고의 사슬 (CoT) 베이스라인보다 가중 정확도 (weighted accuracy)를 향상시킵니다. 또한 우리는 모델당 10,183개의 예시를 사용하여 Qwen2.5-7B와 Phi-4-mini로 평가 규모를 확장합니다. 융합 (Fusion)은 Phi-4-mini의 정확도를 0.4296에서 0.5192로 향상시키지만, Qwen2.5-7B의 사고의 사슬 (CoT)은 답변 정확도 면에서 약간 더 높게 유지됩니다. 그러나 Qwen2.5-7B 융합은 훨씬 낮은 잘못된 약속 (false commitment)과 함께 완전한 파싱 및 SPACE 커버리지를 달성합니다. 12,000개의 예시를 사용한 SPACE 스트레스 테스트 결과, 답변 공간 진단은 여전히 어려운 것으로 나타났으며, SPACE 정확도는 Qwen2.5-7B의 경우 0.3074, Phi-4-mini의 경우 0.4168였습니다. 이러한 결과는 답변 정확도, 파싱 가능성 (parseability), 구조화된 신뢰성 보고, 교정 동작 (calibration behavior), 그리고 잘못된 약속 동작 (false-commitment behavior)이 분리 가능한 능력임을 보여줍니다. 본 연구의 주요 기여는 보편적인 최첨단 (state-of-the-art) 성능을 주장하는 것이 아니라, 구조화된 신뢰성 제약 조건 하에서 감사 가능한 워크플로 구성 요소로서 생물 의학 질의응답 모델을 평가하기 위한 재현 가능한 추론 시간 프레임워크를 제공하는 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

HypothesisMed: 생물 의학 질의응답을 위한 추론 시간 답변 융합 및 구조화된 가설 공간 보고

요약

핵심 포인트

댓글