본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 13. 13:30

상상적 지각 토큰 (Imaginative Perception Tokens)

요약

UW, OpenAI 등은 VLM의 공간 추론 능력을 향상시키기 위해 '상상적 지각 토큰(Imaginative Perception Tokens)'을 개발했습니다. 이 토큰은 관점 취하기와 경로 추적 등의 시각적 관점을 텍스트 기반으로 상상하게 합니다. 또한, NVIDIA는 코드를 액션 인터페이스로 활용하는 트레이닝 불필요 공간 추론 에이전트인 SpatialClaw를 공개하며 VLM의 성능을 개선했습니다.

핵심 포인트

  • Imaginative Perception Tokens: VLM에 텍스트 기반의 공간 상상 능력을 부여합니다.
  • 관점 취하기, 경로 추적 등 시각적 관점 이해도를 높입니다.
  • SpatialClaw는 코드를 이용해 트레이닝 없이도 공간 추론이 가능합니다.
  • NVIDIA 에이전트는 기존 대비 높은 성능 향상을 보였습니다.

UW, OpenAI, Microsoft, 그리고 AI2는 VLM(Vision-Language Models)이 보지 못한 시각적 관점을 상상하도록 가르칩니다.

이러한 토큰은 관점 취하기(perspective taking), 경로 추적(path tracing), 다중 뷰 계수(multiview counting)에 걸쳐 텍스트 기반의 공간 추론 능력을 향상시킵니다.

추론 시 이미지 생성은 이루어지지 않습니다.

논문, 데이터, 그리고 벤치마크를 확인하세요:
https://paperswithcode.co/paper/2606.039
88

https://huggingface.co/collections/weikaih/imaginative-perception-token-data

https://huggingface.co/collections/weikaih/spatial-mental-modeling-benchmark

SpatialClaw

NVIDIA가 코드를 액션 인터페이스로 사용하는 훈련 불필요(training-free) 공간 추론 에이전트를 공개했습니다. VLM은 영구 커널에 Python을 작성하고, 지각 도구를 조합하며, 결과를 검사하고, 계획을 수정합니다—미세 조정(fine-tuning)이 필요 없습니다. 이전 에이전트 대비 20에서 +11.2점 상승.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0