arXiv논문2026. 06. 24. 11:10

RASC+: 임상 가치 세트 작성을 위한 검색 제약 LLM 판정 (Retrieval-Constrained LLM Adjudication)

요약

임상 가치 세트 작성을 위해 검색 기반의 LLM 판정 방식인 RASC+를 제안합니다. 기존 제로샷 방식의 한계를 극복하기 위해 검색으로 후보 풀을 확보하고 LLM이 이를 검증하는 2단계 구조를 통해 성능을 크게 개선했습니다.

핵심 포인트

임상 코드의 방대한 규모로 인한 LLM의 기억력 한계 극복
검색(Recall)과 LLM 판정(Precision)의 단계별 최적화 전략
Qwen3 기반 검색을 통해 후보 풀 재현율을 0.553에서 0.730으로 향상
GPT-5 판정기 도입 시 매크로 F1 점수가 0.549로 대폭 상승
감사 가능한 후보 풀 내에서만 코드를 선택하는 안전 제약 조건 유지

임상 가치 세트(Clinical value sets)는 품질 측정, 표현형 분석(phenotyping), 코호트 구축 및 임상 의사 결정 지원에 사용되는 표준화된 용어 코드를 정의합니다. 최근 도입된 RASC(Retrieval-Augmented Set Completion) 벤치마크는 직접적인 제로샷 대규모 언어 모델(LLM) 생성이 이 작업에 부적합함을 보여주었습니다. 임상 코드 시스템은 규모가 크고 버전 관리가 이루어지며, 언어 모델이 이를 안정적으로 기억하지 못하기 때문입니다. 본 연구에서는 후보 풀(candidate-pool) 구축은 재현율(recall)을 위해 최적화하고, 제약된 LLM 판정기(adjudicator)는 후보 선택을 위해 최적화하는 단계별 대안을 연구합니다. 전체 3,744개 가치 세트 RASC 테스트 분할에 대해, 어휘 인식 확장(vocabulary-aware expansion) 및 코드 표시 구조(code-display rescue) 검색을 포함한 Qwen3 기반 검색은 후보 풀 재현율을 기존 RASC 검색 베이스라인인 0.553에서 0.730으로 높였으며, 미보유 출판물 층(held-out-publisher stratum)에서는 풀 재현율이 0.655를 기록했습니다. 재현율이 높은 풀만으로는 충분하지 않습니다. 이 확장된 풀에 기존 SAPBert 교차 인코더(cross-encoder)를 적용했을 때 전체 테스트 매크로 F1은 0.287, 미보유 출판물 매크로 F1은 0.233을 기록했습니다. 2단계 선택기를 동일한 풀에 대한 블라인드 GPT-5 판정으로 교체하면 전체 테스트 매크로 F1은 0.549로, 미보유 출판물 매크로 F1은 0.533으로 증가합니다. 이러한 결과는 검색 제약 LLM 판정이 반환된 모든 코드가 감사 가능한 후보 풀에서 나와야 한다는 안전 제약 조건을 유지하면서도 가치 세트 완성을 실질적으로 개선할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

RASC+: 임상 가치 세트 작성을 위한 검색 제약 LLM 판정 (Retrieval-Constrained LLM Adjudication)

요약

핵심 포인트

댓글