arXiv논문2026. 06. 15. 11:22

사후 학습(Post-Training)이 LLM을 우수한 의료 코더로 만들 수 있는가? 생성형 ICD 코딩에 관한 실증적 연구

요약

LLM을 활용한 의료 ICD 코딩 성능 향상을 위해 사후 학습(Post-Training)의 효과를 실증적으로 연구했습니다. SFT와 RL(GRPO)을 적용했을 때 프롬프팅보다 월등한 성능을 보임을 확인하였으며, 새로운 진단 커리큘럼인 PHI를 제안합니다.

핵심 포인트

프롬프팅만으로는 LLM의 의료 코딩 잠재력을 과소평가할 수 있음
SFT는 주요한 능력 향상을 제공하며, GRPO는 코드 세트 예측을 개선함
새로운 진단 커리큘럼 PHI를 통해 누락된 코드 사례 개선 가능
성능 병목은 생성 방식이 아닌 모델의 분류 체계 적응 및 최적화 문제임

자동화된 국제 질병 분류 (ICD) 코딩은 청구, 역학 및 임상 의사 결정 지원을 위한 핵심적인 의료 코딩 작업입니다. 생성형 대규모 언어 모델 (LLMs)은 종종 성능이 낮은 의료 코더로 보고되곤 하지만, 이러한 결과는 주로 프롬프팅 (prompting), 검색 (retrieval), 재순위화 (reranking) 또는 도구 사용 (tool use)과 같은 추론 시점 (inference-time) 설정에서 비롯되었으며, 작업 특화된 사후 학습 (post-training)의 역할은 충분히 탐구되지 않았습니다. 우리는 공통된 프로토콜과 지표 세트 하에서 프롬프팅, 지도 미세 조정 (supervised fine-tuning, SFT), 그리고 강화 학습 (reinforcement learning, RL)을 통해 판별 모델 (discriminative baselines)과 LLM 코더를 비교하는 생성형 ICD 코딩을 위한 통제된 실증 연구를 제시합니다. 우리가 알기로, 이는 ICD 코딩에서 생성형 LLM 코더를 위한 RL 기반 사후 학습을 평가한 첫 번째 연구입니다. 나아가 우리는 누락된 코드 사례를 개선하기 위해 GRPO를 확장한 진단 커리큘럼인 PHI를 소개합니다. 연구 결과, 프롬프팅만 사용한 평가는 ICD 코딩에 대한 LLM의 잠재력을 상당히 과소평가한다는 것을 보여줍니다. SFT는 주요한 능력 향상을 제공하며, GRPO는 SFT를 넘어 코드 세트 예측을 더욱 개선하고, PHI는 거시적 수준의 성능에서 타겟팅된 이득을 제공합니다. 이러한 발견은 주요 병목 현상이 생성형 공식화 (generative formulation) 자체에 있는 것이 아니라, 전체 분류 체계 회상 (full-taxonomy recall)을 위해 모델이 어떻게 적응되고 최적화되는지에 있음을 시사합니다. 우리는 코드, 데이터 분할 및 체크포인트를 https://github.com/AlexandreWANG915/LLM4ICD 에서 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

사후 학습(Post-Training)이 LLM을 우수한 의료 코더로 만들 수 있는가? 생성형 ICD 코딩에 관한 실증적 연구

요약

핵심 포인트

댓글