arXiv중요논문2026. 04. 24. 04:20

LLM StructCore: 스키마 기반 추론과 결정적 컴파일을 통한 의료 기록 자동화

요약

의료 노트에서 복잡한 Case Report Form (CRF)을 채우는 작업은 노이즈가 많고 엄격한 출력 계약(strict output contracts) 때문에 어렵습니다. 본 논문은 이러한 문제를 해결하기 위해, 단일 단계 LLM 예측 방식 대신 2단계 구조를 제안합니다. 첫 번째 단계에서는 스키마 기반 추론 (Schema-Guided Reasoning, SGR)을 통해 핵심 도메인 키가 포함된 안정적인 JSON 요약을 생성하고, 두 번째 단계에서는 이 요약을 파싱하여 공식 통제 어휘(controlled vocabulary)에

핵심 포인트

본 시스템은 단일 LLM 예측 대신, (1) SGR 기반의 JSON 요약 생성과 (2) 결정적 컴파일러를 사용하는 2단계 구조로 설계되었습니다.
Stage 1에서 추출된 핵심 도메인 키는 정확히 9개이며, 이는 노이즈가 많은 원본 데이터에서 안정적인 정보를 압축합니다.
Stage 2의 컴파일러는 예측을 공식 통제 어휘에 정규화하고, 증거 게이트(evidence-gated)를 통해 오탐지(false positive)를 필터링하는 결정론적 과정을 거칩니다.
개발 환경 (dev80 split)에서 최고 성능은 영어 0.6543, 이탈리아어 0.6905의 Macro-F1 점수를 달성했습니다.
파이프라인은 언어 독립적(language-agnostic)이며, 이탈리아어 결과가 추가적인 언어별 엔지니어링 없이 영어와 동등하거나 능가하는 성능을 보였습니다.

의료 노트에서 Case Report Form (CRF)을 자동으로 채우는 작업은 여러 난관에 직면합니다. 원본 텍스트 자체가 노이즈를 포함하고 있을 뿐만 아니라, 출력 형식에는 엄격한 계약(strict output contracts)이 요구되며, 오탐지(false positives)가 발생할 경우 비용이 매우 높기 때문입니다.

본 연구는 이러한 문제를 해결하기 위해 '스키마 기반 추론 (Schema-Guided Reasoning, SGR)'을 핵심으로 하는 2단계 접근 방식을 제안합니다. 이 방식은 기존의 단일 단계 LLM 예측(LLM predicts all fields)에서 벗어나, 정보 추출 과정을 분해하여 안정성과 정확도를 극대화하는 데 초점을 맞춥니다.

1. 2단계 구조 설계 (Two-Stage Design)

Stage 1: SGR 기반 요약 생성: 첫 번째 단계는 원본 의료 노트에서 가장 핵심적이고 안정적인 정보만을 추출하여, 정확히 9개의 도메인 키(domain keys)를 포함하는 JSON 형식의 요약을 생성합니다. 이 과정은 노이즈가 많은 원문으로부터 필수 정보를 압축하고 구조화하는 역할을 합니다.
Stage 2: 결정적 컴파일러 (Deterministic Compiler): 두 번째 단계는 완전히 결정론적인(fully deterministic) 컴파일러입니다. 이 컴파일러는 Stage 1에서 생성된 요약 JSON을 입력받아, 최종적으로 요구되는 모든 항목(예: 134개 항목의 Dyspnea CRF) 형식으로 확장하고 채우는 역할을 합니다.

2. 핵심 기능 및 강점:

표준화 및 정규화: 컴파일러는 추출된 항목 이름들을 표준화하고, 예측되는 값들을 공식 통제 어휘(controlled vocabulary)에 맞게 정규화합니다. 이는 데이터의 일관성을 보장하는 데 필수적입니다.
오탐지 방지 (False Positive Filtering): 가장 중요한 기능 중 하나는 '증거 게이트(evidence-gated)' 필터링을 적용하여 오탐지를 사전에 차단한다는 점입니다. 즉, 예측된 정보가 원문 내의 명확한 증거에 기반하지 않으면 최종 결과에서 제외됩니다.
언어 독립성 (Language Agnostic): 이 파이프라인은 특정 언어에 종속되지 않습니다. 연구진은 이탈리아어(Italian) 결과를 테스트했을 때, 추가적인 언어별 엔지니어링 없이 영어와 동등하거나 더 나은 성능을 보여주었습니다.

3. 실험 결과:

개발 환경 (dev80 split)에서 최고 성능의 교사 모델(teacher configuration)은 Macro-F1 점수 0.6543 (영어, EN) 및 0.6905 (이탈리아어, IT)를 달성했습니다. 또한, 비공개 테스트 세트인 test200에서도 영어 변형으로 0.63의 Codabench 점수를 기록하며 높은 성능을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM StructCore: 스키마 기반 추론과 결정적 컴파일을 통한 의료 기록 자동화

요약

핵심 포인트

댓글