arXiv논문2026. 06. 08. 10:32

의료 결정 파이프라인을 위한 LLM 가이드 진화 (LLM-Guided Evolution)

요약

의료 결정 워크플로를 위해 미세 조정 대신 추론 시간 단계에서 진화 알고리즘을 사용하는 LLM 가이드 MAP-Elites 연구를 소개합니다. 긴급도 분류, 상담, 영상 분류 작업에서 수동 설계된 베이스라인보다 뛰어난 성능을 입증했습니다.

핵심 포인트

추론 시간 단계의 진화적 탐색으로 미세 조정 비용 절감
긴급도 분류 작업에서 정확도 및 응급 재현율 대폭 향상
Llama-3, Qwen-3.5, Gemma-4 모델의 정확도-비용 효율 개선
해석 가능한 프로그램 수준의 메커니즘을 통한 성능 향상

대규모 언어 모델 (LLMs)을 임상 워크플로 (clinical workflows)에 적응시키려면 종종 비용이 많이 드는 미세 조정 (fine-tuning)이나 수동 프롬프트 및 파이프라인 엔지니어링이 필요합니다. 본 연구에서는 의료 결정 전략을 발견하기 위한 추론 시간 (inference-time) 대안으로서 LLM 가이드 MAP-Elites 진화 (evolution)를 연구하며, https://github.com/univanxx/llm_guided_evo_medical 에서 구현 저장소를 제공합니다. 우리는 긴급도 분류 (urgency triage), 대화형 상담 (interactive consultation), 의료 영상 분류 (medical image classification)를 작업별 적합도 함수 (fitness functions)에 의해 최적화되는 실행 가능한 아티팩트 (executable artifacts)에 대한 진화적 탐색으로 공식화합니다. 세 가지 설정 모두에서, 진화는 실제적인 제약 조건 하에서 수동으로 설계된 베이스라인 (baselines)보다 성능을 향상시킵니다. 분류 (triage) 작업에서, 진화된 프로그램은 Semigran 정확도를 $77.3%$에서 $87.1%$로, 응급 재현율 (emergency recall)을 $0.60$에서 $0.97$로 높이는 동시에, 안전 가중치가 적용된 홀드아웃 (held-out) MIMIC-ESI 성능을 개선합니다. 대화형 상담에서, 진화된 정책은 Llama-3, Qwen-3.5, Gemma-4 전반에 걸쳐 정확도-비용 프런티어 (accuracy--cost frontier)를 개선하며, 홀드아웃 iCRAFTMD로 전이됩니다. PneumoniaMNIST에서, 프롬프트 전용 진화는 엄격한 JSON 출력을 유지하면서 동결된 (frozen) MedGemma VLM의 성능을 향상시킵니다. 질적 분석 결과, 이러한 이점은 단순한 표면적 프롬프트 재작성(prompt rewording)보다는 해석 가능한 프로그램 수준의 메커니즘, 보정된 분류 경계 (calibrated triage boundaries), 타겟팅된 증거 획득 (targeted evidence acquisition), 선택적 확정 (selective commitment), 그리고 발견 지향적 시각적 결정 규칙 (finding-oriented visual decision rules)에서 비롯됨을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

의료 결정 파이프라인을 위한 LLM 가이드 진화 (LLM-Guided Evolution)

요약

핵심 포인트

댓글