본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 15. 15:28

ATLAS: 에이전트 방식인가 아니면 잠재적 시각적 추론인가? 둘 모두를 위해 단 한 단어면 충분하다

요약

본 기사는 중간 시각적 상태와 시각적 추론 분야의 두 가지 유망한 접근 방식인 에이전트 방식과 잠재적 추론의 한계를 극복하는 ATLAS 프레임워크를 제안합니다. ATLAS는 '기능적 토큰'이라는 단일 이산적 단어를 사용하여 에이전트 작업과 잠재적 시각적 추론 역할을 모두 수행할 수 있게 합니다. 이를 통해 복잡한 중간 시각 콘텐츠 생성 없이도 기존 학습 방식과의 호환성을 유지하며 성능을 향상시킵니다.

핵심 포인트

  • ATLAS는 '기능적 토큰'이라는 단일 이산적 단어를 도입하여 에이전트 작업과 잠재적 시각적 추론 기능을 통합합니다.
  • 기존의 접근 방식(에이전트 방식, 잠재적 추론)은 각각 컨텍스트 스위칭 지연이나 일반화 능력 부족 등의 한계를 가집니다.
  • ATLAS는 기능적 토큰을 통해 내재화된 시각적 작업을 수행하면서도 시각적 감독 없이 표준 토크나이저 어휘 사전 내에서 생성 가능합니다.
  • 학습 안정화를 위해 Latent-Anchored GRPO (LA-GRPO)라는 보조 목적 함수를 도입하여 기능적 토큰의 희소성 문제를 해결했습니다.

중간 시각적 상태 (intermediate visual states)와 자주 뒤섞여 나타나는 시각적 추론 (Visual reasoning)은 해당 분야에서 유망한 방향으로 떠오르고 있습니다. 간단한 접근 방식은 추론 과정 중에 통합 모델 (unified models)을 통해 이미지를 직접 생성하는 것이지만, 이는 계산 비용이 많이 들고 구조적으로 복잡합니다. 최근의 대안으로는 코드나 도구 호출 (tool calls)을 통한 에이전트 방식의 추론 (agentic reasoning), 그리고 학습 가능한 숨겨진 임베딩 (learnable hidden embeddings)을 사용하는 잠재적 추론 (latent reasoning) 등이 있습니다. 그러나 에이전트 방식은 외부 실행으로 인한 컨텍스트 스위칭 지연 (context-switching latency)이 발생하며, 잠재적 방식은 작업 일반화 (task generalization) 능력이 부족하고 자기회귀적 병렬화 (autoregressive parallelization)를 통한 학습이 어렵습니다.

이들의 장점을 결합하면서 한계를 완화하기 위해, 우리는 기능적 토큰 (functional token)이라 불리는 단일 이산적 '단어'가 에이전트 작업 (agentic operation)과 잠재적 시각적 추론 단위 (latent visual reasoning unit)의 역할을 모두 수행하는 프레임워크인 ATLAS를 제안합니다. 각 기능적 토큰은 내재화된 시각적 작업 (internalized visual operation)과 연관되어 있지만, 시각적 감독 (visual supervision)을 필요로 하지 않으며 토크나이저 어휘 사전 (tokenizer vocabulary) 내의 표준 토큰으로 남아 다음 토큰 예측 (next-token prediction)을 통해 생성될 수 있습니다. 이러한 설계는 장황한 중간 시각적 콘텐츠 생성을 피하면서도, 구조적 또는 방법론적 수정 없이 기존의 확장 가능한 SFT 및 RL 학습과의 호환성을 유지합니다.

RL 과정 중 기능적 토큰의 희소성 (sparsity) 문제를 추가로 해결하기 위해, 우리는 기능적 토큰을 정적으로 가중치가 부여된 보조 목적 함수 (auxiliary objective)로 고정하여 학습을 안정화하고 더 강력한 그래디언트 업데이트 (gradient updates)를 제공하는 Latent-Anchored GRPO (LA-GRPO)를 도입합니다. 광범위한 실험과 분석을 통해 ATLAS가 명확한 해석 가능성 (interpretability)을 유지하면서도 까다로운 벤치마크에서 우수한 성능을 달성함을 입증했습니다. 우리는 ATLAS가 향후 시각적 추론 연구에 영감을 주는 새로운 패러다임을 제공하기를 바랍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0