본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 11. 21:46

Distilled LLM을 활용한 불확실성 인식 구조화 데이터 추출 (Uncertainty-Aware Structured Data

요약

본 논문은 자유 텍스트 형태의 심장 자기공명영상(CMR) 보고서를 구조화된 데이터로 변환하고, 각 필드에 신뢰도를 할당하는 경량 프레임워크인 CMR-EXTR을 제안합니다. 이 시스템은 교사-학생 증류 기법을 사용하여 수동 주석 작업의 부담을 줄이면서도 완전한 오프라인 추론을 가능하게 합니다. 특히, 분포 개연성, 샘플링 안정성, 교차 필드 일관성이라는 세 가지 원칙을 통합하여 불확실성을 인식함으로써, 인간 검토가 필요한 부분을 효과적으로 식별하고 높은 정확도를 달성했습니다.

핵심 포인트

  • CMR-EXTR은 자유 텍스트 CMR 보고서를 구조화된 데이터로 변환하는 경량 프레임워크입니다.
  • 교사-학생 증류(Teacher-Student Distillation) 파이프라인을 사용하여 효율적인 학습과 오프라인 추론을 구현했습니다.
  • 불확실성 인식 메커니즘은 분포 개연성, 샘플링 안정성, 교차 필드 일관성을 통합하여 신뢰도를 측정합니다.
  • 99.65%의 변수 수준 정확도를 달성했으며, 신뢰도 추정 기능이 통합된 최초의 CMR 특화 추출 시스템임을 강조했습니다.

자유 텍스트 형태의 심장 자기공명영상(CMR) 보고서를 감사 가능한 구조화된 데이터로 변환하는 것은 코호트 구성, 종단적 관리 및 임상 의사 결정 지원에 여전히 병목 현상을 일으키고 있습니다. 우리는 자유 텍스트 CMR 보고서를 구조화된 데이터로 변환하고 품질 관리를 위해 필드별 신뢰도를 할당하는 경량 프레임워크인 CMR-EXTR을 제시합니다. 교사-학생 증류(teacher-student distillation) 파이프라인은 수동 주석 작업을 제한하면서 완전한 오프라인 추론을 가능하게 합니다. 불확실성(Uncertainty)은 세 가지 상호 보완적인 원칙—분포 개연성(distribution plausibility), 샘플링 안정성(sampling stability), 그리고 교차 필드 일관성(cross-field consistency)—을 통합하여 인간 검토가 필요한 부분을 분류합니다. 실험 결과, CMR-EXTR은 99.65%의 변수 수준 정확도를 달성하여 신뢰할 수 있는 추출과 정보 제공적인 신뢰 점수를 모두 입증했습니다. 저희가 아는 한, 이는 신뢰도 추정 기능이 통합된 최초의 CMR 특화 추출 시스템입니다. 코드는 https://github.com/yuyi1005/CMR-EXTR에서 이용 가능합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0