실패 연쇄 끊기: 의료 멀티모달 추론을 위한 단계 인식 강화학습 (Step-Aware Reinforcement Learning)
요약
의료 멀티모달 모델의 추론 과정에서 발생하는 연쇄적 오류를 해결하기 위해 단계별 과정 보상을 활용하는 MRPO 알고리즘을 제안합니다. 초기 단계의 오류에 더 큰 페널티를 부여함으로써 추론의 정확도와 품질을 획기적으로 개선했습니다.
핵심 포인트
- 기존 결과 중심적 학습의 희소한 신용 할당 문제 해결
- 단계별 과정 보상을 통합한 MRPO 알고리즘 제안
- 초기 단계 추론 실패율을 64.0%에서 13.0%로 대폭 감소
- Qwen3-VL-8B 모델이 대규모 모델인 HuatuoGPT-Vision-34B를 능가
최근 멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 임상 이미지 추론 분야에서 큰 가능성을 보여주었으나, 기존의 사후 학습 (post-training) 파이프라인은 여전히 최종 답변의 정확성이나 시퀀스 수준의 선호도에 의존하는 결과 중심적 (outcome-centric) 방식에 머물러 있습니다. 이는 희소한 신용 할당 (sparse credit assignment) 문제를 야기하여, 임상 적용에 필수적인 추론 과정을 최적화하는 것을 어렵게 만듭니다. 본 연구의 분석에 따르면, 초기 단계의 추론 실패로 인한 연쇄적 오류 (cascading errors)가 의료 시각적 질의응답 (Visual Question Answering, VQA) 벤치마크에서 잘못된 예측을 유발하는 주요 원인임을 밝혀냈습니다. 이에 착안하여, 우리는 단계별 과정 보상 (step-wise process rewards)을 통합하는 강화학습 (RL) 알고리즘인 의료 추론 인식 정책 최적화 (Medical Reasoning-aware Policy Optimization, MRPO)를 제안합니다. 최종 답변이 틀렸을 경우, MRPO는 초기 단계의 잘못된 추론 단계에 포함된 토큰들에 지수적으로 더 큰 페널티를 부여함으로써, 성공적인 경로를 저해하지 않으면서도 실패 연쇄를 끊어냅니다. 세 가지 멀티모달 LLM 백본을 대상으로 실험한 결과, MRPO는 표준 GRPO 및 최근의 RL 베이스라인을 일관되게 능가하였으며, Qwen3-VL-8B-Instruct 모델의 경우 HuatuoGPT-Vision-34B와 같은 훨씬 더 큰 규모의 의료 MLLM보다 2.79포인트 더 높은 성능을 보였습니다. 또한, MRPO는 초기 단계의 추론 실패율을 64.0%에서 13.0%로 감소시켰으며, 이는 연쇄적 실패를 표적화하여 완화하는 것이 추론 품질과 최종 답변 정확도를 모두 향상시킨다는 것을 보여줍니다. 우리의 코드는 https://github.com/dmis-lab/MRPO 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기