Evo-PI: 진화하는 원칙 기반 감독을 통한 의료 추론 정렬
요약
Evo-PI는 정적 감독의 한계를 극복하기 위해 추론 원칙을 생성, 평가, 진화시키는 새로운 학습 프레임워크를 제안합니다. 모델의 추론과 감독 원칙이 함께 발전하는 공진화 루프를 통해 의료 시각적 질의응답 성능을 최대 24.6% 향상시켰습니다.
핵심 포인트
- 정적 감독의 한계를 극복하는 동적 원칙 기반 학습 프레임워크 제안
- 원칙과 모델 행동이 상호 발전하는 공진화 루프 메커니즘 도입
- 의료 시각적 질의응답 벤치마크에서 최대 24.6% 성능 향상 달성
- MLLM의 추론 능력을 전문가 수준으로 정렬하기 위한 확장 가능한 패러다임 제시
최근의 발전에도 불구하고, 대규모 멀티모달 언어 모델 (MLLMs)의 추론 능력은 고정된 프롬프트, 규칙 또는 보상 모델이 훈련 과정 내내 비적응적 가이드를 제공하는 정적 감독 (static supervision)에 의해 근본적으로 제한되어 있습니다. 이러한 정적 신호는 출력 형식을 강제하는 데에는 종종 충분하지만, 기저의 추론 과정을 형성하는 데는 실패하여 복잡한 의사 결정 작업에서 취약한 일반화와 성능 포화 현상을 초래합니다. 우리는 추론 원칙을 생성, 평가 및 반복적으로 진화할 수 있는 명시적인 언어 기반 감독 신호로 취급하는 원칙 중심 학습 프레임워크인 Evo-PI를 제안합니다. Evo-PI는 고정된 보상에 의존하는 대신, 원칙이 모델의 추론을 가이드하고 모델의 행동이 다시 그들을 감독하는 원칙을 정교화하는 공진화 루프 (co-evolutionary loop)를 가능하게 합니다. 이러한 동적 정렬 메커니즘을 통해 감독이 모델의 추론 결함에 점진적으로 적응할 수 있습니다. 우리는 구조화된 시각-텍스트 추론을 요구하는 고위험 테스트베드로서 의료 시각적 질의응답 (medical visual question answering)에 Evo-PI를 구현했습니다. 8개의 벤치마크와 여러 모델 백본 (backbones)에 걸쳐, Evo-PI는 추론 정확도를 일관되게 향상시켜 최대 24.6%의 이득을 달성했습니다. 우리의 결과는 진화하는 원칙 기반 감독이 MLLMs에서 전문가와 정렬된 추론을 훈련하기 위한 확장 가능하고 일반적인 패러다임을 제공함을 시사합니다. 코드는 https://github.com/zhengxianda/Evo_PI 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기