이중 스트림 강화학습 (Dual-Stream Reinforcement Learning)을 통한 토큰 희소 의료 멀티모달 추론
요약
의료 영상의 희소한 시각적 정보를 효율적으로 처리하기 위해 이중 스트림 강화학습 프레임워크인 ViToS를 제안합니다. 시각적 토큰 가지치기와 질의응답을 동시에 수행하며, 교차 피드백 최적화를 통해 성능과 추론 속도를 모두 개선했습니다.
핵심 포인트
- 이중 스트림 RL 프레임워크 ViToS 제안
- 시각적 토큰 가지치기(VTP)를 통한 효율적 추론 구현
- 교차 피드백 순차 최적화로 그래디언트 충돌 방지
- 토큰 77% 감소 시에도 의료 벤치마크 성능 향상 달성
강화학습 (RL)을 결합한 시각-언어 모델 (Vision-language models, VLMs)은 멀티모달 추론 (multimodal reasoning) 분야에서 놀라운 발전을 일으키고 있지만, 임상적 의사결정에 정보를 제공하기 위해 극도로 희소한 시각적 증거를 나타내는 경우가 많은 의료 영상에서는 여전히 어려움을 겪고 있습니다. 우리는 그라운딩 (grounding) 영역 외부의 시각적 토큰을 가지치기 (pruning) 하는 것이 의료 추론을 크게 향상시킨다는 점을 인지하고 있습니다. 그러나 능동적 시각적 토큰 가지치기 (visual token pruning, VTP)와 의료 멀티모달 추론을 위한 통합된 RL 프레임워크는 아직 확립되지 않았습니다. 본 논문에서는 토큰 가지치기와 질의응답을 수행하기 위해 이중 스트림 RL 프레임워크인 ViToS를 제안합니다. ViToS는 두 개의 작업 브랜치를 가진 하나의 정책 모델 (policy model)을 학습시키며, 이 중 하나는 그라운딩 (grounding)에 집중하고 다른 하나는 VTP 이후 토큰 희소 추론 (token-sparse reasoning)을 수행합니다. 또한, 우리는 교차 피드백 순차 최적화 (cross-feedback sequential optimization)를 도입하여 결합된 정책 학습 문제를 해결함으로써, 그래디언트 충돌 (gradient conflict)을 방지하고 공유 정책 모델의 수렴을 촉진합니다. 7개의 의료 벤치마크에서 평가한 결과, 우리의 방법은 시각적 토큰을 원래 시퀀스 길이의 77%로 줄이면서도 Lingshu-7B에서 108.27%의 상대적 성능을, HuatuoGPT-Vision-7B에서 104.16%의 상대적 성능을 달성했습니다. 종합적으로 ViToS는 우수한 성능과 추론 속도 향상을 제공하며, 의료 멀티모달 추론을 위한 효율적인 패러다임을 구축합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기