프롬프트, 계획, 추출: 임상 서술문으로부터의 폐 병리 추출을 위한 제로샷 에이전트형 LLM 워크플로우
요약
폐 병리 보고서에서 핵심 정보를 추출하기 위한 제로샷 에이전트형 LLM 워크플로우를 제안합니다. 5개의 오픈 소스 LLM을 평가한 결과, 별도의 학습 없이도 복잡한 병리학적 관계를 정확하게 추출할 수 있음을 확인했습니다.
핵심 포인트
- 수동 추출의 비용과 오류를 줄이기 위한 제로샷 에이전트 워크플로우 개발
- 5개의 오픈 소스 LLM을 활용한 폐 병리 정보 추출 성능 평가
- 기존 지도 학습 기반 NER-RE 모델과 비교하여 경쟁력 있는 성능 입증
- 저비용 솔루션으로서 오픈 소스 제로샷 LLM의 가능성 제시
병리 보고서로부터의 정보 추출은 암 병기 결정(cancer staging) 및 종양 등록(tumor registry) 구축을 위해 필수적입니다. 그러나 핵심 데이터가 서술형 보고서에 포함되어 있어, 수동 추출은 노동 집약적이고 오류가 발생하기 쉽습니다. 전통적인 지도 학습 기반의 자연어 처리 (NLP) 파이프라인은 완전 지도 학습 방식의 개체명 인식 (Named Entity Recognition, NER) 및 관계 추출 (Relation Extraction, RE)을 통해 이를 해결하려 하지만, 비용이 많이 드는 수동 주석(manual annotation)이 필요하며 상위 단계에서 개체가 누락될 경우 연쇄적인 실패(cascading failures)를 겪습니다. 본 연구에서는 제로샷 (zero-shot) 에이전트형 워크플로우를 개발하였으며, 폐 절제 병리 보고서로부터 13개의 미국 병리학회 (College of American Pathologists) 종합 필드를 채우기 위해 5개의 오픈 소스 생성형 거대 언어 모델 (Large Language Models, LLMs)을 평가했습니다. 우리는 새로운 등록 체계 정렬 평가 프레임워크를 사용하여 최첨단 지도 학습 기반의 GatorTron NER-RE 베이스라인과 비교했습니다. 베이스라인은 0.960의 Micro-F1을 달성한 반면, 가장 우수한 제로샷 모델 (GPT-OSS-20B)은 특정 작업에 대한 학습 없이도 병리학적 병기 (Pathologic Stage)와 같은 복잡한 관계를 정확하게 추출하며 0.893의 Micro-F1 (재현율 (recall): 0.949)을 달성했습니다. 이러한 결과는 오픈 소스 제로샷 에이전트형 LLM이 폐 병리 정보를 추출하기 위한 저비용 솔루션임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기