arXiv논문2026. 06. 23. 12:59

이미지 하나면 충분하다: 롱테일 공간 인지(Long-Tail Spatial Perception)를 위한 텍스트 기반 월드 모델을 통한 에이전트

요약

WMGen-v1은 단일 이미지와 텍스트를 활용해 물리적으로 타당한 롱테일 공간 데이터를 생성하는 에이전트 기반 월드 모델 프레임워크입니다. LVLM과 LLM을 결합하여 구조화된 장면을 구축하고, 확산 모델을 통해 고품질의 합성 데이터를 생성하여 공간 인지 성능을 높입니다.

핵심 포인트

WMGen-v1은 롱테일 데이터 부족 문제를 해결하기 위한 에이전트 기반 월드 모델임
LVLM과 LLM을 활용해 물리적 타당성과 상식적 제약을 준수하는 장면 확장 수행
확산 모델을 통해 구조화된 의미론적 표현을 조건으로 다양한 합성 데이터 생성
합성 데이터만으로 학습한 탐지기가 실제 데이터 사용 시와 유사한 성능 달성

자율 주행 및 해양 감시와 같은 신뢰할 수 있는 공간 의사결정 자동화는 강력한 시각적 인지(Visual Perception)에 결정적으로 의존합니다. 그러나 실제 세계의 시공간 데이터는 심각한 이질성을 보이며, 안전이 중요한 시나리오에서는 종종 극단적인 롱테일 분포(Long-tail distributions)로 나타납니다. 이러한 데이터 부족은 데이터셋 변화(Dataset shift)를 유발하여 탐지 성능을 저하시키고 안전 위험을 초래합니다. 합성 데이터 생성(Synthetic data generation)이 잠재적인 해결책을 제공하지만, 확산 모델(Diffusion models) 및 생성적 적대 신경망(GANs)과 같은 기존 생성 방식은 명시적인 공간적 접지(Spatial grounding) 및 구조적 제약이 부족한 경우가 많아, 생성된 장면에서 공간적 및 물리적 불일치가 발생합니다. 이러한 과제를 해결하기 위해, 우리는 롱테일 공간 데이터 생성을 위한 에이전트 기반 텍스트 기반 월드 모델(Agentic text-based world model) 프레임워크인 WMGen-v1을 소개합니다. WMGen-v1은 대규모 시각-언어 모델(LVLM)을 사용하여 단일 참조 이미지로부터 구조화된 장면 표현을 구축하는 한편, 대규모 언어 모델(LLM)은 물리적 타당성 및 상식적 제약 하에서 가이드 기반의 장면 확장을 수행합니다. 이후, 이 추론 과정에서 생성된 구조화된 의미론적 표현(Semantic representations)을 조건으로 하여, 확산 모델(Diffusion model)이 다양하고 물리적으로 근거가 있는 롱테일 학습 데이터를 생성합니다. 내부 산업 데이터셋, ROADWork 및 LaRS 벤치마크에 대한 실험 결과, WMGen-v1이 베이스라인 방식들을 능가함을 입증했습니다. 특히, WMGen-v1 합성 데이터로만 학습된 탐지기(Detectors)는 전체 데이터셋 수준의 지표에서 실제 데이터만 사용했을 때의 성능에 근접하며, 이는 다운스트림 공간 인지(Spatial perception)를 위한 롱테일 데이터 부족 문제를 완화할 수 있는 잠재력을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

이미지 하나면 충분하다: 롱테일 공간 인지(Long-Tail Spatial Perception)를 위한 텍스트 기반 월드 모델을 통한 에이전트

요약

핵심 포인트

댓글