
왜 멀리 있는 것이 위로 보이는가
요약
시각-언어 모델(VLM)이 수직 위치를 거리와 혼동하는 공간적 편향을 지적하는 연구를 소개합니다. 또한 Amazon과 OSU가 출시한 오픈 심층 연구 에이전트 제품군인 QUEST를 함께 다룹니다.
핵심 포인트
- VLM의 수직 위치와 거리 간의 공간적 편향 발견
- 모델의 3D 공간 이해 능력 검증 필요성 강조
- 2B~35B 규모의 오픈 연구 에이전트 QUEST 출시
- QUEST 모델, 데이터셋, 학습 코드 Hugging Face 공개
왜 멀리 있는 것이 위로 보이는가
새로운 연구는 시각-언어 모델 (Vision-Language Models)의 숨겨진 공간적 편향 (Spatial Bias)을 드러냅니다. 즉, 모델들이 수직 위치 (Vertical Position)를 거리 (Distance)와 혼동한다는 것입니다. 벤치마크 (Benchmark) 점수는 이러한 결함을 가리지만, 표현 구조 (Representation Structure)는 모델이 3D 공간을 진정으로 이해하고 있는지 여부를 밝혀냅니다.
논문 (Paper):
https://huggingface.co/papers/2605.30161
…
SpatialTunnel 데이터셋 (Dataset):
https://huggingface.co/datasets/cubec/spatialtunnel
…
체크포인트 (Checkpoints):
https://huggingface.co/collections/ch-min/why-far-looks-up-data-scale-fine-tuned-checkpoints
…
Amazon과 OSU가 방금 QUEST를 출시했습니다.
2B에서 35B 규모에 이르는 완전한 오픈 심층 연구 에이전트 (Deep Research Agents) 제품군입니다.
검증 가능한 루브릭 트리 (Rubric Trees)를 갖춘 합성 작업 (Synthetic Tasks)을 통해 완전히 학습되었습니다.
모든 모델, 데이터셋, 그리고 학습 코드는 Hugging Face에 공개되어 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기