대규모 흉부 CT 데이터셋에서 보고서 기반 라벨의 LLM 지원 정제
요약
대규모 흉부 CT 데이터셋인 CT-RATE에서 LLM을 활용해 라벨과 보고서 간의 불일치를 정제하는 연구를 수행했습니다. GPT-5.4를 이용한 라벨링이 높은 일치도를 보였으며, 다중 LLM 다수결 방식이 가장 우수한 성능을 기록했습니다.
핵심 포인트
- LLM을 활용한 CT 데이터셋의 라벨 정제 가능성 확인
- GPT-5.4 유도 라벨과 기존 라벨 간 96.4%의 높은 일치도 달성
- 다중 LLM 다수결 방식이 가장 높은 F1 점수와 Kappa 값 기록
- 정제된 데이터셋은 향후 의료 영상 연구를 위해 공개 예정
목적: 대규모 공개 흉부 CT 데이터셋인 CT-RATE에서 대규모 언어 모델 (LLM)-지원 라벨 정제 (label cleaning)가 라벨-보고서 불일치 (label-report discordance)를 식별할 수 있는지 평가한다. 재료 및 방법: 보고서 수준의 중복 제거 후, 24,446개의 고유한 방사선 보고서가 식별되었다. Microsoft Azure AI Foundry의 콘텐츠 안전 필터링으로 인해 12개의 보고서가 주요 GPT-5.4 분석에서 제외되어, 18개의 이상 징후 카테고리에 걸쳐 24,434개의 보고서와 439,812개의 라벨 인스턴스가 남았다. 구조화된 JSON 출력을 사용하여 보고서 텍스트로부터 GPT-5.4 유도 이진 라벨 (binary labels)을 생성하고 이를 기존 CT-RATE 라벨과 비교하였다. 불일치하는 인스턴스는 방사선 전문의에 의해 판정되었다. 또한, 100개의 무작위 샘플링된 보고서를 수동으로 주석 처리하여 CT-RATE 라벨, 개별 LLM 유도 라벨, 그리고 다중 LLM 다수결 라벨 (multi-LLM majority-vote labels)을 방사선 전문의가 주석을 단 참조 라벨 (reference labels)과 비교하였다. 결과: GPT-5.4 유도 라벨과 CT-RATE 라벨 간의 전반적인 일치도는 96.4%였으며, Cohen's kappa는 0.884였다. 림프절병증 (Lymphadenopathy)이 가장 낮은 일치도와 kappa를 보였다. 불일치 검토에서, 방사선 전문의 판정 결과 일반적인 불일치 인스턴스 97개 중 72개(74.2%)와 표적 림프절병증 불일치 인스턴스 99개 중 91개(91.9%)에서 GPT-5.4 유도 라벨이 지지되었다. 방사선 전문의 주석 참조 라벨과 비교했을 때, 다중 LLM 다수결 라벨이 가장 높은 라벨-매크로 평균 F1 점수 (label-macro-averaged F1 score)와 Cohen's kappa를 달성하였다. 결론: LLM 지원 라벨 정제는 CT-RATE에서 임상적으로 의미 있는 라벨-보고서 불일치를 식별하였으며, 공개 영상 데이터셋의 확장 가능한 품질 개선을 지원할 수 있다. 정제된 데이터셋은 향후 연구를 지원하기 위해 공개될 예정이다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기