arXiv논문2026. 06. 30. 12:30

생각하기 전에 결정하라: 효율적인 시각적 추론을 위한 선제적 라우팅 (Proactive Routing)

요약

멀티모달 모델의 추론 효율성을 높이기 위해 초안 모델과 타겟 모델 사이에서 쿼리를 적응적으로 전달하는 선제적 라우팅(PRP) 패러다임을 제안합니다. 기존 방식과 달리 모델의 역량을 공동 평가하여 조기에 의사 결정을 내림으로써 성능 저하 없이 추론 속도를 가속화합니다.

핵심 포인트

초안 모델의 내부 신뢰도 추정기(DRL) 도입
타겟 모델의 처리 능력을 예측하는 공동 등급 학습(JRL) 제안
사후 토큰 확률 의존성을 탈피한 조기 라우팅 구현
멀티모달 추론 벤치마크를 통한 효율성 및 효과성 검증

대규모 멀티모달 모델 (Large multimodal models)은 복잡한 시각적 작업에서 강력한 추론 능력을 달성했지만, 이들의 추론 효율성은 종종 긴 사고 사슬 (chains of thought)에 의해 제한됩니다. 유망한 해결책은 작은 초안 모델 (draft model)을 큰 타겟 모델 (target model)과 쌍으로 구성하는 것이며, 이를 통해 쿼리의 난이도에 따라 초안 모델 또는 타겟 모델로 적응적으로 쿼리를 전달하는 라우팅 신호 (routing signal)를 사용하여 최적의 효율성과 정확성을 위한 협력적 추론을 가능하게 합니다. 그러나 남아있는 병목 현상은 멀티모달 설정 하에서 신뢰할 수 있는 쿼리 난이도 신호를 구축하는 것입니다. 언어 모델을 위해 설계된 기존 방식들은 사후 토큰 확률 (post-hoc token probabilities)에 의존하는데 이는 멀티모달 시나리오에서 부족하며, 혹은 지도 미세 조정 (supervised fine-tuning)에 의존하는데 이는 데이터 민감적인 전략입니다. 두 패러다임 모두 완전한 출력이 나온 후에만 라우팅을 수행하며, 타겟 모델이 라우팅된 인스턴스를 실제로 해결할 수 있는지 여부를 무시합니다. 이를 해결하기 위해, 우리는 초안 모델과 타겟 모델 모두의 역량을 공동으로 평가함으로써 조기 의사 결정을 가능하게 하는 선제적 라우팅 패러다임 (Proactive Routing Paradigm, PRP)을 제안합니다. 우리의 초안 등급 학습 (Draft Rating Learning, DRL)은 초안 모델에 내부 신뢰도 추정기 (internal confidence estimator)를 갖추게 하며, 공동 등급 학습 (Joint Rating Learning, JRL)은 타겟 모델이 주어진 쿼리를 얼마나 잘 처리할 수 있는지 예측함으로써, 가장 어려운 샘플보다는 타겟 모델이 잘 수행할 수 있는 샘플의 할당을 우선시합니다. 이러한 등급은 세밀한 인스턴스 수준의 extbf{선제적 라우팅 (Proactive Routing)}을 가능하게 하며, 전체 성능을 저하시키지 않으면서 추론을 실질적으로 가속화합니다. 여러 멀티모달 추론 벤치마크에 걸친 광범위한 실험을 통해 우리의 효과성과 효율성을 검증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

생각하기 전에 결정하라: 효율적인 시각적 추론을 위한 선제적 라우팅 (Proactive Routing)

요약

핵심 포인트

댓글