ETCHR: 추론을 명확히 하고 활용하기 위한 이미지 편집
요약
ETCHR은 MLLM의 시각적 추론 능력을 향상시키기 위해 이미지 편집 모델을 분리하여 사용하는 새로운 패러다임을 제안합니다. 질문 조건부 및 추론 인지적 편집을 통해 미세한 인지나 시점 변환이 필요한 복잡한 추론 문제를 해결합니다.
핵심 포인트
- 이미지 편집 모델을 이해 모델과 분리하여 플러그인 형태로 활용
- 언어 측면과 생성 측면의 격차를 해소하는 2단계 훈련 레시피 도입
- 추론 모방 및 VLM 유도 보상을 통한 편집 정확도와 추론 성능 강화
- Qwen, Gemini, Kimi 등 다양한 MLLM에서 성능 향상 입증
멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 시각적 추론 (visual reasoning)을 발전시켜 왔으나, 미세한 집중 (fine-grained focus)이나 시점 변환 (view transformations)이 필요한 질문에 대해서는 순수하게 텍스트로만 이루어진 사고 사슬 (chain of thought)이 여전히 병목 현상으로 남아 있습니다. ''이미지로 생각하기 (think with images)'' 패러다임은 이러한 격차를 좁히고 있지만, 기존의 접근 방식들은 고정된 사전 정의 툴킷 (predefined toolkits)에 의해 제약을 받거나 통합 멀티모달 방식 (unified multimodal methods)으로부터 노이즈가 섞인 중간 이미지 (noisy intermediate images)를 생성한다는 한계가 있습니다. 우리는 세 번째 옵션, 즉 전용 이미지 편집 모델을 사용하고 이를 이해 모델 (understanding model)과 분리하는 방식을 추구합니다. 그러나 기존의 이미지 편집기들은 두 가지 상호 보완적인 격차로 인해 추론 보조 도구로서 실패합니다. 첫째는 언어 측면의 격차 (language-side gap)로, 수동적인 지시 이행자 (instruction-followers)로 훈련된 편집기는 추상적인 질문을 적절한 시각적 변환 (visual transformation)으로 매핑하지 못합니다. 둘째는 생성 측면의 격차 (generation-side gap)로, 추론의 깊이가 깊어질수록 편집의 정확도 (edit correctness)가 저하됩니다. 이러한 분석을 바탕으로, 우리는 질문 조건부 (question-conditioned)이자 추론 인지적 (reasoning-aware) 이미지 편집기인 ETCHR (Editing To Clarify and Harness Reasoning)을 소개합니다. ETCHR는 다운스트림 이해 모델 (downstream understanding model)과 분리되어 있으며, 앞서 언급한 두 가지 격차를 목표로 하는 2단계 레시피로 훈련됩니다. 첫 번째 단계는 편집 궤적 (edit trajectories)에 대한 지도 미세 조정 (supervised fine-tuning)을 통한 추론 모방 (Reasoning Imitation)이며, 두 번째 단계는 편집 정확도와 다운스트림 추론 정확도를 위한 VLM 유도 보상 (VLM-derived rewards)을 활용한 추론 강화 (Reasoning Enhancement)입니다. 편집기가 분리되어 있기 때문에, ETCHR는 별도의 훈련 없이도 다양한 오픈 소스 및 폐쇄형 소스 MLLM에 플러그인 형태로 연결될 수 있습니다. 다섯 가지 작업군 (미세 인지 (fine-grained perception), 차트 이해 (chart understanding), 논리 추론 (logic reasoning), 직소 퍼즐 복원 (jigsaw restoration), 3D 이해 (3D understanding)) 전반에 걸쳐, ETCHR는 Qwen3-VL-8B 사용 시 평균 Pass@1을 55.95에서 60.77 (+4.82)로, Gemini-3.1-Flash-Lite 사용 시 65.08에서 70.55 (+5.47)로, 그리고 1T 파라미터 MoE 모델인 Kimi K2.5 사용 시 76.55에서 81.16 (+4.61)로 향상시켰습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기