arXiv논문2026. 06. 23. 13:57

AIR: MLLM에서의 코드를 활용한 적응형 교차 추론 (Adaptive Interleaved Reasoning with Code)

요약

MLLM의 수치 계산 능력을 강화하기 위해 코드와 교차 추론을 결합한 AIR 프레임워크를 제안합니다. 강화학습과 데이터 큐레이션 전략을 통해 시각적 작업과 복합 수치 계산을 동시에 해결하며 성능을 크게 향상시켰습니다.

핵심 포인트

코드와 교차 추론을 결합하여 MLLM의 수치 계산 한계 극복
2단계 콜드 스타트 데이터 구축 및 RL 데이터 필터링 전략 제안
그룹 제약 보상 함수를 활용한 적응형 도구 호출 전략 도입
벤치마크 성능 평균 6.1pp 향상 및 도구 사용 성공률 95% 달성

OpenAI o3가 시작한 패러다임 전환에 따라, 멀티모달 거대 언어 모델 (MLLMs)을 강화하기 위해 코드와 교차 추론 (interleaved reasoning)을 결합하는 방식이 핵심적인 연구 최전선이 되었습니다. 기존 문헌들은 주로 시각-인지 (vision-perception) 작업 내에서의 도구 사용 (tool-use)에 집중해 왔습니다. 그러나 이러한 접근 방식은 일반적으로 시각적 조작을 위한 사전 정의된 휴리스틱 (heuristics)에 의존하며, 시각적 작업에만 독점적으로 집중하기 때문에 본질적으로 수치 계산 문제를 해결할 수 없습니다. 본 논문은 코드 증강 (code-augmented) 복합 수치 계산 작업에 대한 확장된 강화학습 (RL) 훈련을 통해 MLLM에 적응형 교차 추론 능력을 부여합니다. 이를 위해 우리는 다음의 세 가지 구성 요소로 이루어진 포괄적인 솔루션을 제안합니다: 2단계 콜드 스타트 (cold-start) 데이터 구축 파이프라인, RL 데이터셋 큐레이션을 위한 데이터 필터링 전략, 그리고 교차 추론 궤적 (trajectories)을 위해 그룹 제약 보상 함수 (group-constrained reward function)를 활용하는 적응형 도구 호출 (tool-invocation) 전략입니다. 광범위한 실험을 통해 그룹 제약 보상 함수를 사용한 강화학습 (Reinforcement Learning) 훈련 후, 평가 벤치마크에서 성능이 평균 6.1 퍼센트 포인트 (pp) 향상됨을 입증했습니다. 구체적으로, 교차 추론 샘플에 대한 정확도는 9.9 pp 증가했으며, 도구 사용 (tool-use)의 전체 성공률은 95%를 초과했습니다. 우리의 데이터와 코드는 다음에서 확인할 수 있습니다: https://github.com/CongHan0808/AIR.git.

AI 자동 생성 콘텐츠

원문 바로가기

AIR: MLLM에서의 코드를 활용한 적응형 교차 추론 (Adaptive Interleaved Reasoning with Code)

요약

핵심 포인트

댓글