모든 토큰이 동일하게 중요하지는 않다: 긴 형식의 의료 보고서 생성을 위한 결정적 토큰 감독 기반의 동적 인컨텍스트 벡터 증류 (Dynamic
요약
긴 형식의 의료 보고서 생성 시 발생하는 토큰 수준의 정보 불균형 문제를 해결하기 위한 DIVE 프레임워크를 제안합니다. 결정적 토큰 감독과 동적 스티어링 메커니즘을 통해 콘텐츠 충실도와 정확한 문장 종료를 보장합니다.
핵심 포인트
- 긴 형식 생성 시 고빈도 템플릿 토큰이 정보 밀도를 저해하는 문제 지적
- 병리 관련 토큰과 EOS 이벤트에 집중하는 결정적 토큰 감독 방식 도입
- 은닉 상태에 따라 적응하는 상태 조건부 동적 스티어링 메커니즘 제안
- MIMIC-CXR 등 데이터셋에서 BLEU-4, ROUGE-L 등 주요 지표 성능 입증
데모 효과 (demonstration effects)를 은닉 공간 개입 (hidden-space interventions)으로 증류하는 것은 전체 미세 조정 (full finetuning)에 대한 가벼운 대안을 제공합니다. 그러나 기존의 멀티모달 변형 모델들은 대부분 출력이 몇 개의 토큰 내에서 끝나는 짧은 형식의 작업에서 평가됩니다. 이러한 방법들을 긴 형식의 생성 (long-form generation)으로 확장하면 근본적이면서도 아직 충분히 조사되지 않은 한계가 드러납니다. 즉, 토큰 수준의 증류 (token-level distillation)는 모든 출력 토큰을 동일하게 정보가 많은 것으로 암묵적으로 취급하지만, 긴 형식의 출력은 고빈도 템플릿 및 문법 토큰이 지배적인 반면, 실제 출력 품질을 결정하는 토큰은 드물게 분포되어 있다는 점입니다. 의료 보고서 생성 (Medical Report Generation, MRG)에서는 두 가지 결정적 토큰 (decisive tokens)이 두드러집니다. 진단 내용을 결정하는 병리 관련 토큰 (pathology-related tokens)과 종료를 결정하는 문장 종료 (end-of-sequence, EOS) 이벤트입니다. 두 토큰 모두 균일한 교차 엔트로피 (cross-entropy) 하에서는 불충분한 감독을 받으며, 자기회귀 디코딩 (autoregressive decoding)은 교사 강제 궤적 (teacher-forced trajectories)에서 벗어남으로써 문제를 더욱 악화시킵니다.
우리는 이러한 실패 요인들에 맞춘 두 가지 상호 보완적인 메커니즘을 통해 긴 형식의 보고서 생성을 해결하는 동결된 백본 증류 프레임워크인 DIVE를 제안합니다. 결정적 토큰 감독 (Decisive-token supervision)은 병리 관련 토큰과 EOS 이벤트의 교차 엔트로피 기여도를 높임으로써 감독의 균형을 회복하며, 이를 통해 콘텐츠 충실도 (content fidelity)와 종료가 디코딩 시점에 강제되는 것이 아니라 훈련 중에 학습되도록 보장합니다. 상태 조건부 동적 스티어링 (State-conditioned dynamic steering)은 고정된 오픈 루프 잔차 (fixed open-loop residuals)를 은닉 상태 의존적 어댑터 (hidden-state-dependent adapters)로 대체하여, 디코딩이 드리프트(drift)됨에 따라 주입된 신호가 적응할 수 있도록 합니다. 두 가지 의료 VLM 백본을 사용하여 MIMIC-CXR 및 CheXpert Plus 데이터셋에서 수행한 실험 결과, DIVE는 어휘 및 임상 대리 지표 (clinical-proxy metrics) 전반에서 일관되게 가장 강력한 방법 중 하나로 선정되었습니다. 우리의 방법은 모든 데이터셋-백본 설정에서 최고의 BLEU-4, ROUGE-L 및 RadGraph F1을 달성하는 동시에, 거친 라벨 수준의 CheXbert F1에서도 경쟁력을 유지했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기