본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 09. 11:53

광학적 추론 (Optical Reasoning): 텍스트를 넘어 표현력이 풍부한 추론 매체로서의 이미지 재고

요약

이미지를 독립적인 추론 매체로 활용하는 '광학적 추론(Optical Reasoning)' 개념을 제안합니다. 타이포그래피와 그래픽 기반의 두 가지 방식을 통해 텍스트 기반 추론보다 높은 토큰 효율성과 우수한 성능을 입증했습니다.

핵심 포인트

  • 이미지를 언어 및 멀티모달 작업을 위한 추론 매체로 활용
  • 타이포그래피 및 그래픽 기반의 두 가지 광학적 추론 방식 제안
  • 텍스트 추론 대비 최대 1.96배의 토큰 효율성 달성
  • 수학, 과학 및 교차 모달 벤치마크에서 대등하거나 우수한 성능 확인

Chain-of-Thought (CoT, 사고의 사슬)는 거대 언어 모델 (LLMs)의 성능을 향상시키며, 멀티모달 거대 언어 모델 (MLLMs)로까지 확장되어 왔습니다. 보다 최근의 연구들은 텍스트 기반의 멀티모달 추론에서 중간 단계가 텍스트 기반의 근거 (rationales)와 시각적 증거를 모두 포함할 수 있는 교차 모달 추론 (interleaved-modal reasoning)으로 더욱 나아가고 있습니다. 본 연구에서 우리는 더 대담하고 야심 찬 아이디어를 제안합니다. 과연 이미지 단독으로 언어 및 멀티모달 작업 모두를 위한 추론 매체 (reasoning medium) 역할을 할 수 있을까요? 이를 탐구하기 위해, 우리는 이미지를 독립적인 추론 매체로 취급하는 광학적 추론 (optical reasoning)을 제안합니다. 우리는 이 개념을 두 가지 변형으로 구체화합니다. 첫째는 압축된 근거 렌더링을 위해 시각적 레이아웃을 최적화하는 타이포그래피 기반 광학적 추론 (typographic-based optical reasoning)이며, 둘째는 텍스트와 그래픽 요소를 구조화된 시각적 근거로 구성하는 그래픽 기반 광학적 추론 (graphical-based optical reasoning)입니다. 수학, 과학 및 교차 모달 추론 벤치마크 전반에 걸쳐, 광학적 추론은 전통적인 텍스트 추론과 대등하거나 심지어 능가하는 성능을 보였으며, 언어 작업에서는 평균 28.57%, 멀티모달 작업에서는 16%의 추론 토큰 (reasoning tokens)을 줄여 텍스트 추론 대비 1.96배의 토큰 효율성을 달성했습니다. 이러한 결과는 이미지가 추론을 위한 통합된 시각적 캔버스를 제공하는 동시에, 근거를 효과적이고 효율적으로 인코딩할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0