이중 스트림 강화학습 (Dual-Stream Reinforcement Learning)을 통한 토큰 희소 의료 멀티모달 추론

강화학습 (RL)을 결합한 시각-언어 모델 (Vision-language models, VLMs)은 멀티모달 추론 (multimodal reasoning) 분야에서 놀라운 발전을 일으키고 있지만, 임상적 의사결정에 정보를 제공하기 위해 극도로 희소한 시각적 증거를 나타내는 경우가 많은 의료 영상에서는 여전히 어려움을 겪고 있습니다. 우리는 그라운딩 (grounding) 영역 외부의 시각적 토큰을 가지치기 (pruning) 하는 것이 의료 추론을 크게 향상시킨다는 점을 인지하고 있습니다. 그러나 능동적 시각적 토큰 가지치기 (visual token pruning, VTP)와 의료 멀티모달 추론을 위한 통합된 RL 프레임워크는 아직 확립되지 않았습니다. 본 논문에서는 토큰 가지치기와 질의응답을 수행하기 위해 이중 스트림 RL 프레임워크인 ViToS를 제안합니다. ViToS는 두 개의 작업 브랜치를 가진 하나의 정책 모델 (policy model)을 학습시키며, 이 중 하나는 그라운딩 (grounding)에 집중하고 다른 하나는 VTP 이후 토큰 희소 추론 (token-sparse reasoning)을 수행합니다. 또한, 우리는 교차 피드백 순차 최적화 (cross-feedback sequential optimization)를 도입하여 결합된 정책 학습 문제를 해결함으로써, 그래디언트 충돌 (gradient conflict)을 방지하고 공유 정책 모델의 수렴을 촉진합니다. 7개의 의료 벤치마크에서 평가한 결과, 우리의 방법은 시각적 토큰을 원래 시퀀스 길이의 77%로 줄이면서도 Lingshu-7B에서 108.27%의 상대적 성능을, HuatuoGPT-Vision-7B에서 104.16%의 상대적 성능을 달성했습니다. 종합적으로 ViToS는 우수한 성능과 추론 속도 향상을 제공하며, 의료 멀티모달 추론을 위한 효율적인 패러다임을 구축합니다.

Insights

이중 스트림 강화학습 (Dual-Stream Reinforcement Learning)을 통한 토큰 희소 의료 멀티모달 추론

요약

핵심 포인트

댓글

메타인지적 피드백을 통한 강화학습(RL)은 LLM의 충실한 불확실성 표현을 유도한다

QVal: 장기적 관점의 LLM 에이전트를 위한 밀집 감독 신호의 저비용 평가 방법

자기 성찰적 결합: 고정된 감독 하에서도 행동 변화를 추적하는 자기 설명 학습 (Self-Explanation Training)

잠깐, 내가 공정하게 행동하고 있는 걸까? 연역적 스테레오타이핑(Deductive Stereotyping)의 특성 규명 및 Fair-GCG를

QVal: 장기적 관점의 LLM 에이전트를 위한 밀집 감독 신호의 저비용 평가 방법

자기 성찰적 결합: 고정된 감독 하에서도 행동 변화를 추적하는 자기 설명 학습 (Self-Explanation Training)

잠깐, 내가 공정하게 행동하고 있는 걸까? 연역적 스테레오타이핑(Deductive Stereotyping)의 특성 규명 및 Fair-GCG를