X요약2026. 06. 13. 13:30

상상적 지각 토큰 (Imaginative Perception Tokens)

요약

UW, OpenAI 등은 VLM의 공간 추론 능력을 향상시키기 위해 '상상적 지각 토큰(Imaginative Perception Tokens)'을 개발했습니다. 이 토큰은 관점 취하기와 경로 추적 등의 시각적 관점을 텍스트 기반으로 상상하게 합니다. 또한, NVIDIA는 코드를 액션 인터페이스로 활용하는 트레이닝 불필요 공간 추론 에이전트인 SpatialClaw를 공개하며 VLM의 성능을 개선했습니다.

핵심 포인트

Imaginative Perception Tokens: VLM에 텍스트 기반의 공간 상상 능력을 부여합니다.
관점 취하기, 경로 추적 등 시각적 관점 이해도를 높입니다.
SpatialClaw는 코드를 이용해 트레이닝 없이도 공간 추론이 가능합니다.
NVIDIA 에이전트는 기존 대비 높은 성능 향상을 보였습니다.

UW, OpenAI, Microsoft, 그리고 AI2는 VLM(Vision-Language Models)이 보지 못한 시각적 관점을 상상하도록 가르칩니다.

이러한 토큰은 관점 취하기(perspective taking), 경로 추적(path tracing), 다중 뷰 계수(multiview counting)에 걸쳐 텍스트 기반의 공간 추론 능력을 향상시킵니다.

추론 시 이미지 생성은 이루어지지 않습니다.

논문, 데이터, 그리고 벤치마크를 확인하세요:
https://paperswithcode.co/paper/2606.039
88
…
https://huggingface.co/collections/weikaih/imaginative-perception-token-data
…
https://huggingface.co/collections/weikaih/spatial-mental-modeling-benchmark
…

SpatialClaw

NVIDIA가 코드를 액션 인터페이스로 사용하는 훈련 불필요(training-free) 공간 추론 에이전트를 공개했습니다. VLM은 영구 커널에 Python을 작성하고, 지각 도구를 조합하며, 결과를 검사하고, 계획을 수정합니다—미세 조정(fine-tuning)이 필요 없습니다. 이전 에이전트 대비 20에서 +11.2점 상승.

AI 자동 생성 콘텐츠

원문 바로가기

상상적 지각 토큰 (Imaginative Perception Tokens)

요약

핵심 포인트

댓글