Evo-PI: 진화하는 원칙 기반 감독을 통한 의료 추론 정렬

최근의 발전에도 불구하고, 대규모 멀티모달 언어 모델 (MLLMs)의 추론 능력은 고정된 프롬프트, 규칙 또는 보상 모델이 훈련 과정 내내 비적응적 가이드를 제공하는 정적 감독 (static supervision)에 의해 근본적으로 제한되어 있습니다. 이러한 정적 신호는 출력 형식을 강제하는 데에는 종종 충분하지만, 기저의 추론 과정을 형성하는 데는 실패하여 복잡한 의사 결정 작업에서 취약한 일반화와 성능 포화 현상을 초래합니다. 우리는 추론 원칙을 생성, 평가 및 반복적으로 진화할 수 있는 명시적인 언어 기반 감독 신호로 취급하는 원칙 중심 학습 프레임워크인 Evo-PI를 제안합니다. Evo-PI는 고정된 보상에 의존하는 대신, 원칙이 모델의 추론을 가이드하고 모델의 행동이 다시 그들을 감독하는 원칙을 정교화하는 공진화 루프 (co-evolutionary loop)를 가능하게 합니다. 이러한 동적 정렬 메커니즘을 통해 감독이 모델의 추론 결함에 점진적으로 적응할 수 있습니다. 우리는 구조화된 시각-텍스트 추론을 요구하는 고위험 테스트베드로서 의료 시각적 질의응답 (medical visual question answering)에 Evo-PI를 구현했습니다. 8개의 벤치마크와 여러 모델 백본 (backbones)에 걸쳐, Evo-PI는 추론 정확도를 일관되게 향상시켜 최대 24.6%의 이득을 달성했습니다. 우리의 결과는 진화하는 원칙 기반 감독이 MLLMs에서 전문가와 정렬된 추론을 훈련하기 위한 확장 가능하고 일반적인 패러다임을 제공함을 시사합니다. 코드는 https://github.com/zhengxianda/Evo_PI 에서 확인할 수 있습니다.

Insights

Evo-PI: 진화하는 원칙 기반 감독을 통한 의료 추론 정렬

요약

핵심 포인트

댓글

LLM 응답의 스트리밍(Streaming) vs 배치(Batching): 비용 및 지연 시간(Latency) 분석

Claude Sonnet 5 & DiffusionGemma: 이번 주 AI의 판도를 바꾸는 두 모델

벤치마크는 당신에게 거짓말을 하고 있습니다. LLM을 실제로 평가하는 방법은 다음과 같습니다.

사상에서 엔지니어링으로: FROST와 FROST-SOP의 쌍둥이 여정

Claude Sonnet 5 & DiffusionGemma: 이번 주 AI의 판도를 바꾸는 두 모델

벤치마크는 당신에게 거짓말을 하고 있습니다. LLM을 실제로 평가하는 방법은 다음과 같습니다.

사상에서 엔지니어링으로: FROST와 FROST-SOP의 쌍둥이 여정