DIRECT: 3D 인지 및 포즈 제어가 가능한 객체 삽입 기술
요약
ICML 2026에 채택된 DIRECT는 3D 인지 및 포즈 제어가 가능한 객체 삽입 프레임워크입니다. 외형, 기하학적 구조, 문맥 가이드를 분해하여 참조 정체성을 유지하며 객체를 장면 내에 통합합니다.
핵심 포인트
- 3D 인지 및 포즈 제어가 가능한 객체 삽입 기술
- 외형, 기하학적 구조, 문맥 가이드의 분해를 통한 정체성 보존
- ICML 2026 채택 논문 및 오픈소스 코드 제공
- AnchorWorld를 통한 1인칭 시점 시뮬레이션 제어 가능
DIRECT는 3D 인지(3D-aware) 및 포즈 제어가 가능한 객체 삽입(object insertion)을 가능하게 합니다.
ICML 2026에 채택된 이 프레임워크는 외형(appearance), 기하학적 구조(geometry), 그리고 문맥 가이드(context guidance)를 분해하여, 객체를 대상 장면(target scenes)에 통합하는 동안 참조 정체성(reference identity)을 보존합니다.
코드 + 인터랙티브 데모:
https://github.com/Gong1130/DIRECT
모델:
https://huggingface.co/superGong/DIRECT
논문:
https://huggingface.co/papers/2606.06601
...
AnchorWorld
Kuaishou와 Tsinghua 연구진이 체화된 1인칭 시점 시뮬레이션(embodied egocentric simulation)을 소개합니다.
3D 인간 동작(3D human motion)으로 1인칭 세계를 제어하고,
포즈 고정 뷰(pose-anchored views)를 통해 진화하는 장면을 맞춤화할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기