S-Agent: 공간 도구 사용을 통해 8B 에이전트가 공간 추론에서 GPT-5.4와 경쟁하게 만드는 법: 시공간적 증거 축적
요약
S-Agent는 VLM을 플래너로 활용하여 다중 뷰 이미지와 비디오로부터 3D 장면 메모리를 구축하는 에이전트 프레임워크입니다. 시공간적 증거 축적 방식을 통해 8B 규모의 모델이 대규모 모델과 경쟁할 수 있는 공간 추론 능력을 제공합니다.
핵심 포인트
- VLM을 직접적인 추론기가 아닌 계층적 도구 호출을 위한 플래너로 활용
- 프레임 단위 추론의 한계를 극복하기 위해 외부 '장면 메모리' 도입
- 시공간적 증거 축적을 통해 8B 모델로도 고차원 공간 추론 가능
- 2D 탐지, 깊이/기하학, 측정 등 전문화된 공간 도구 계층 구조 사용
무엇인가 (What): S-Agent는 다중 뷰(multi-view) 이미지와 비디오에 대한 공간 추론을 위한 에이전트 프레임워크입니다. 여기서 시각-언어 모델 (vision-language model, VLM)은 플래너 (planner) 역할을 수행하며, 계층적인 공간 도구들을 지시하여 하나의 공유된 **장면의 3D 모델 (3-D model of the scene)**을 구축합니다. 논문에서는 이를 **시공간적 증거 축적 (spatio-temporal evidence accumulation)**이라고 부릅니다.
왜 필요한가 (Why): 얼마나 떨어져 있는지, 몇 개인지, 어느 방향을 향하고 있는지와 같은 공간적 질문들은 **단일 평면 프레임에는 담길 수 없는 기하학적 정보 (geometry)**를 필요로 합니다. 이러한 기하학적 정보를 모델의 머릿속에서 꺼내 명시적인 3D 저장소로 옮김으로써, 80억 파라미터 (8-billion-parameter) 규모의 에이전트가 공간 추론에서 GPT-5.4 및 Gemini 3와 경쟁할 수 있게 합니다.
이전 방식과의 차이 (vs prior): 표준적인 VLM은 **프레임 단위 추론 (frame-by-frame reasoning)**을 수행합니다. 즉, 매 프레임마다 컨텍스트 내부에서 전체 3D 장면을 다시 도출하며, 카메라가 움직임에 따라 추적 능력을 상실합니다. 반면 S-Agent는 대신 도구들이 프레임마다 정교화할 수 있는 외부 **장면 메모리 (Scene Memory)**에 장면을 유지합니다.
다음과 같이 생각해보세요
사진 더미를 보고 방을 3D 축소 모델로 재구성하는 탐정처럼 말이죠.
사진 더미 (다중 뷰 프레임)
│
┌─────────────┴─────────────┐
...
- VLM 플래너 (planner) = 다음 측정 항목을 결정하지만, 직접 측정은 하지 않는 수석 탐정
- 공간 도구 및 전문가 (spatial tools & experts) = 호출된 전문가들 — 한 명은 각 객체를 찾아내고, 한 명은 이를 3D로 들어 올리며, 한 명은 거리와 각도를 측정함
- 다중 뷰 프레임 (multi-view frames) = 서로 다른 각도에서 촬영된 평면 사진들의 더미
- 장면 메모리 (Scene Memory) = 모든 사진이 정교화해 나가는 테이블 위의 3D 축소 모델
- 에이전트 메모리 (Agent Memory) = 지금까지의 추론 과정을 담고 있는 사건 수첩
- 증거 축적 (evidence accumulation) = 각 사진이 모델에 하나의 측정값을 추가함; 정답은 다시 상상하는 것이 아니라 모델로부터 읽어냄
빠른 용어 정리
VLM (vision-language model, 시각-언어 모델) — 이미지 또는 비디오와 텍스트를 입력받아 두 가지 모두에 대해 추론하는 모델입니다. S-Agent에서 VLM은 직접 답을 내는 존재가 아니라, 다음에 어떤 공간 도구를 호출할지 결정하는 **플래너 (planner)**입니다.
시맨틱 플래너 (Semantic planner) — VLM이 수행하는 역할: VLM은 질문과 지금까지의 장면을 읽고, 기하학적 구조를 직접 계산하는 대신 다음 행동을 선택합니다. 예를 들어, 이 객체를 그라운딩(grounding)하거나, 저 객체를 3D로 들어 올리거나(lift), 이 거리를 측정하는 등의 행동을 결정합니다.
공간 도구 및 전문가 (Spatial tools & experts) — 플래너가 지시하는 전문화된 도구들의 계층 구조: 2D 객체 그라운딩 (2-D object grounding), 2D 탐지(detection)를 3D 위치로 변환하는 깊이/기하학 (depth/geometry), 그리고 측정 (개수 세기, 거리, 방향) 등이 포함됩니다.
시공간적 증거 축적 (Spatio-temporal evidence accumulation) — 핵심 아이디어: 각 프레임은 **부분적인 기하학적 증거 (partial geometric evidence)**를 제공하며, 도구들은 이를 **공간과 시간에 걸쳐 하나의 연속적인 3D 세계로 집계 (aggregate)**합니다. 따라서 정답은 단일 뷰(view)에서 추측하는 것이 아니라 점진적으로 구축됩니다.
장면 메모리 (Scene Memory) — **진화하는 세계의 3D 상태 (evolving 3-D state of the world)**를 보유하는 외부 저장소입니다. 각 객체가 어디에 있는지, 크기는 얼마인지, 어느 방향을 향하고 있는지 등을 저장합니다. 프레임이 들어옴에 따라 정교해지며, 플래너는 이를 매번 다시 유도하는 대신 이 상태를 읽어 들입니다.
에이전트 메모리 (Agent Memory) — 두 번째 저장소인 **추론 컨텍스트 (reasoning context)**입니다. 플래너가 무엇을 요청했는지, 어떤 도구가 실행되었는지, 무엇이 여전히 미지수인지 등을 기록합니다. 장면 메모리가 세계가 어떻게 보이는가에 대한 것이라면, 에이전트 메모리는 에이전트가 그것에 대해 무엇을 했는가에 대한 것입니다.
훈련 불필요 (Training-free) — 이 도구 계층 구조는 가중치 업데이트를 전혀 하지 않고도 공간 벤치마크 성능을 향상시킵니다. 이후 모델이 생성한 추적(traces) 데이터를 바탕으로 8B 모델을 미세 조정(fine-tuning)하면 S-Agent-8B가 탄생합니다.
뉴스. 2026년 6월 18일, 연구진은 다중 뷰 이미지와 비디오를 통한 공간 지능(spatial intelligence)을 위한 LLM 에이전트 프레임워크인 S-Agent를 arXiv에 게시했습니다. 프레임 단위로 추론하는 대신, 시각-언어 모델(vision-language model, VLM)이 시맨틱 플래너(semantic planner)로서 작동하여 공간 도구(spatial tools)의 계층 구조를 지시합니다. 이 모델은 객체를 2D로 접지(grounding)하고, 이를 3D로 들어 올리며(lifting), **프레임 전반에 걸쳐 기하학적 증거를 축적(aggregates geometric evidence)**합니다. 이 도구 계층 구조는 별도의 학습 없이도 여러 공간 벤치마크 성능을 이미 향상시켰으며, 자체 생성한 추적(traces) 데이터로 미세 조정(fine-tuning)한 후에는 S-Agent-8B가 공간 추론에서 GPT-5.4 및 Gemini 3와 경쟁할 수준에 도달했습니다. 논문 읽기 →
한 번도 본 적 없는 방에 들어가는 탐정이 수십 개의 각도에서 촬영된 두꺼운 사진 뭉치를 건네받는 상황을 상상해 보십시오. 절망적인 작업 방식은 사진을 한 장씩 넘기며 방 전체를 머릿속으로 그려보려고 애쓰는 것입니다. 즉, 문을 기준으로 의자가 어디에 있는지, 테이블이 창문에서 얼마나 떨어져 있는지, 스탠드가 어느 방향을 향하고 있는지 등을 파악하려 하는 것이죠. 평면적인 사진은 그러한 정보를 담고 있지 않으며, 페이지를 넘길 때마다 머릿속 이미지는 흐릿해집니다. 실제로 효과적인 방법은 테이블 위에 작은 3D 축척 모델을 만들고, 각 사진이 모델에 하나의 측정값을 추가하도록 하는 것입니다. 그런 다음 사진 뭉치를 통해 다시 상상하는 것이 아니라, 그 모델을 보고 모든 질문에 답하는 것입니다. 그 축척 모델이 바로 씬 메모리(Scene Memory)이며, 다음에 무엇을 측정할지 결정하는 탐정은 VLM 플래너(VLM planner)이고, "사진 한 장당 하나의 측정값을 추가한다"는 것이 바로 시공간적 증거 축적(spatio-temporal evidence accumulation)입니다.
이 비유의 이면에서, S-Agent는 3D 장면(3-D scene)을 모델의 컨텍스트 창(context window) 밖으로 꺼내 명시적인 저장소(explicit store)로 이동시키고 있습니다. 공간 질문을 받은 일반적인 VLM(Vision-Language Model)은 평면적인 프레임의 시퀀스만을 보게 되며, 매 단계마다 머릿속에서 기하학적 구조를 다시 구축해야 합니다. 이는 카메라가 움직임에 따라 추적 능력을 상실하게 되는 바로 그 프레임 단위(frame-by-frame) 접근 방식입니다. 반면, S-Agent는 VLM을 도구 계층(hierarchy of tools)을 지시하는 플래너(planner)로 설정합니다. 에이전트의 트랙 이름과 마찬가지로 '오케스트레이터(orchestrator)와 작업자(workers)' 구조를 취하는 것입니다. 즉, 하나의 도구는 각 객체를 2D 상에 정착(grounding)시키고, 다른 도구는 이를 3D 위치로 들어 올리며(lifting), 또 다른 도구는 측정합니다. 이들의 출력값은 실행 중인 3D 모델인 **장면 메모리(Scene Memory)**에 저장되는 반면, 플래너 자체의 추론은 **에이전트 메모리(Agent Memory)**에 머물러, 세상이 어떻게 보이는지와 에이전트가 무엇을 했는지를 분리하여 유지합니다.
도구들이 업데이트하는 저장소에 기하학적 정보가 축적되기 때문에, 동일한 루프가 훈련 없이(training-free) 실행됩니다. 즉, 가중치(weights)를 변경하는 것이 아니라 에이전트가 행동하는 방식을 변화시키는 것입니다. '행동으로서의 코드(code-as-action)'를 사용하는 공간 에이전트와의 대비는 시사하는 바가 큽니다. 두 방식 모두 하나의 VLM이 프레임으로부터 직접 답변하도록 하는 방식을 넘어섰지만, 해당 에이전트가 실행 가능한 코드를 행동으로 작성하는 반면, S-Agent는 작업을 유형화된 공간 전문가(typed spatial experts)와 공유된 3D 메모리로 라우팅(routing)합니다.
| 접근 방식 | 3D 장면이 존재하는 곳 | 공간 추론 결과 |
|---|---|---|
| 직접 답변하는 대형 VLM (예: GPT-5.4) | 모델의 컨텍스트 내에서 매 프레임마다 재도출됨 | 강력하지만, 무거움 (heavyweight) |
| ... |
가치를 증명하는 지점
주방의 4프레임짜리 클립과 _"의자가 몇 개인가요?"_라는 질문을 상상해 보세요. 프레임별 카운터가 발견된 개수를 집계한다고 가정해 봅시다. 예를 들어 3개, 그다음 3개, 그다음 2개, 마지막으로 3개의 의자를 포착했다면, 공유된 모델이 없는 상태에서는 어떤 발견이 다시 본 같은 의자인지 알 방법이 없으므로, 합계가 11개로 흐를 수 있습니다. S-Agent는 감지된 각 의자를 Scene Memory(장면 메모리) 내의 3D 좌표에 배치하므로, 새로운 각도에서 다시 발견되더라도 동일한 지점으로 수렴하며, 결과적으로 개수는 4개로 해결됩니다. (4프레임 카운트는 예시일 뿐이며, 80억 파라미터(8-billion-parameter) 규모, 훈련이 필요 없는(training-free) 이점, 그리고 GPT-5.4 / Gemini 3와의 대등함은 논문에서 도출된 결과입니다.) 이것이 각 평면 프레임을 다시 추론하는 대신 하나의 3D 저장소에 증거를 축적하는 방식의 핵심 전략입니다. 기하학적 정보가 누락되는 것을 방지함으로써, 8B 에이전트가 훨씬 더 큰 규모로 구축된 프런티어 모델(frontier models)의 영역에 도달하게 합니다.
FAQ
시공간적 증거 축적(spatio-temporal evidence accumulation)이란 무엇인가요?
이는 S-Agent의 핵심 메커니즘입니다. 에이전트는 하나의 평면 프레임으로부터 공간적 질문에 답하는 대신, 각 프레임을 부분적인 기하학적 증거로 취급하고 이를 공간과 시간에 따라 집계하여 장면의 단일한 연속적 3D 모델로 통합합니다. 시각-언어 모델(vision-language model)은 공간 도구(2D에서의 객체 그라운딩(grounding), 3D로의 리프팅(lifting), 거리, 개수 및 방향 측정 등)를 지시하는 플래너(planner) 역할을 수행하며, 정답은 프레임으로부터 다시 상상해내는 것이 아니라 조립된 3D 모델로부터 읽어냅니다.
S-Agent가 왜 중요한가요?
S-Agent는 공간 지능이 단순히 모델의 크기뿐만 아니라 장면이 어떻게 표현되는지에 의해 결정된다는 것을 보여줍니다. 3D 장면을 모델의 컨텍스트(context) 밖으로 꺼내어 도구들이 프레임별로 정교화하는 명시적인 Scene Memory(장면 메모리)로 옮김으로써, 80억 파라미터 규모의 에이전트가 공간 추론에서 GPT-5.4 및 Gemini 3와 경쟁할 수 있게 합니다. 또한, 이 도구 계층 구조는 미세 조정(fine-tuning)을 거치기 전에도 훈련 없이(training-free) 벤치마크 성능을 향상시킵니다.
S-Agent는 직접 답변하는 시각-언어 모델과 어떻게 다른가요?
직접 답변하는 VLM (Vision-Language Model)은 프레임 단위의 추론 (frame-by-frame reasoning)을 수행합니다. 즉, 매 프레임마다 자신의 컨텍스트 (context) 내에서 전체 3D 장면을 다시 도출해야 하며, 이는 정보 손실이 발생하고 카메라가 움직임에 따라 오류가 생기기 쉽습니다. S-Agent는 VLM을 공간 도구 (spatial tools)의 계층 구조를 지시하는 플래너 (planner)로 재구성하며, 진화하는 3D 상태를 외부의 장면 메모리 (Scene Memory)에 유지하고 추론 컨텍스트 (reasoning context)는 에이전트 메모리 (Agent Memory)에 별도로 보관합니다. 이를 통해 기하학적 정보 (geometry)가 매 단계마다 다시 추측되는 대신 축적되도록 합니다.
원문은 Learn AI Visually에 게시되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기