arXiv논문2026. 06. 29. 11:44

모든 관계가 동일하게 회전하는 것은 아니다: 시점 강건성을 위한 변환 인식 디커플링 기반 3D 장면 그래프 생성 (3D Scene Graph

요약

3D 장면 그래프 생성(3DSGG) 시 시점 변화에 따른 관계 예측 오류를 해결하기 위한 TAD 프레임워크를 제안합니다. 방향성 술어와 안정적 술어를 분리하여 학습함으로써 시점 변화에 강건한 3D 공간 이해를 가능하게 합니다.

핵심 포인트

시점 변화에 따라 변하는 방향성 술어와 유지되는 의미론적 술어를 분리 학습
변환 인식 디커플링(TAD)을 통해 시점 강건한 3D 장면 그래프 생성 구현
회전 증강 없이도 요(yaw) 회전 변화에 대해 SOTA 수준의 강건성 달성
체화된 지능(Embodied Intelligence) 환경을 위한 공간 이해 기술 고도화

3D 장면 그래프 생성 (3D Scene Graph Generation, 3DSGG)은 3D 장면을 구조화된 객체-관계-객체 그래프로 표현하며, 공간 이해를 위한 압축된 관계적 추상화를 제공합니다. 체화된 지능 (Embodied Intelligence) 환경에서, 동일한 3D 장면이라도 에이전트가 요(yaw) 회전만큼 차이가 나는 시점(viewpoints)에서 관찰할 수 있습니다. 그러나 현재의 3DSGG 모델들은 이러한 시점 변화 하에서 기대되는 변환 동작을 따르는 관계 예측을 생성하는 데 종종 실패합니다. 이러한 동작은 술어 수준의 변환 이질성 (predicate-level transformation heterogeneity)과 관련된 경험적 불일치를 드러냅니다. 왼쪽(left), 앞(front), 오른쪽(right), 뒤(behind)와 같은 방향성 술어(directional predicates)는 관찰 프레임과 함께 변환되어야 하는 반면, '~위에 서 있는(standing on)'이나 '~에 부착된(attached to)'과 같은 대부분의 접촉(contact), 지지(support), 의미론적(semantic) 술어들은 안정적으로 유지되어야 합니다. 이러한 불일치를 줄이기 위해, 우리는 술어 변환 동작에 따라 관계 추론을 디커플링(decoupling)하고 시점 안정적인 객체 표현(viewpoint-stable object representations)에 의해 지원되는 시점 강건한 3DSGG 프레임워크인 변환 인식 디커플링 (Transformation-Aware Decoupling, TAD)을 제안합니다. TAD는 관계 추론을 두 부분으로 분해합니다. 하나는 시점에 관계없이 안정적으로 유지되어야 하는 단서(cues)를 학습하고, 다른 하나는 관찰 프레임과 함께 변해야 하는 방향성 단서를 학습합니다. 이 두 부분은 표준 다중 레이블 술어 예측 (multi-label predicate prediction)을 위해 병합됩니다. 변환 특화 기술자 (Transformation-specific descriptors)와 그룹 인식 보조 감독 (group-aware auxiliary supervision)은 두 브랜치가 상호 보완적인 관계 단서를 포착하도록 장려합니다. 3DSGG에 대한 광범위한 실험 결과, TAD는 훈련 시 회전 증강 (rotation augmentation) 없이도 요(yaw) 시점 변화 하에서 최첨단(state-of-the-art) 강건성을 달성하는 동시에, 표준 벤치마크 하에서 경쟁력 있는 성능을 유지함을 보여줍니다. 프로젝트 페이지는 https://tad-predicate.github.io/ 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

모든 관계가 동일하게 회전하는 것은 아니다: 시점 강건성을 위한 변환 인식 디커플링 기반 3D 장면 그래프 생성 (3D Scene Graph

요약

핵심 포인트

댓글