본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 29. 11:44

모든 관계가 동일하게 회전하는 것은 아니다: 시점 강건성을 위한 변환 인식 디커플링 기반 3D 장면 그래프 생성 (3D Scene Graph

요약

3D 장면 그래프 생성(3DSGG) 시 시점 변화에 따른 관계 예측 오류를 해결하기 위한 TAD 프레임워크를 제안합니다. 방향성 술어와 안정적 술어를 분리하여 학습함으로써 시점 변화에 강건한 3D 공간 이해를 가능하게 합니다.

핵심 포인트

  • 시점 변화에 따라 변하는 방향성 술어와 유지되는 의미론적 술어를 분리 학습
  • 변환 인식 디커플링(TAD)을 통해 시점 강건한 3D 장면 그래프 생성 구현
  • 회전 증강 없이도 요(yaw) 회전 변화에 대해 SOTA 수준의 강건성 달성
  • 체화된 지능(Embodied Intelligence) 환경을 위한 공간 이해 기술 고도화

3D 장면 그래프 생성 (3D Scene Graph Generation, 3DSGG)은 3D 장면을 구조화된 객체-관계-객체 그래프로 표현하며, 공간 이해를 위한 압축된 관계적 추상화를 제공합니다. 체화된 지능 (Embodied Intelligence) 환경에서, 동일한 3D 장면이라도 에이전트가 요(yaw) 회전만큼 차이가 나는 시점(viewpoints)에서 관찰할 수 있습니다. 그러나 현재의 3DSGG 모델들은 이러한 시점 변화 하에서 기대되는 변환 동작을 따르는 관계 예측을 생성하는 데 종종 실패합니다. 이러한 동작은 술어 수준의 변환 이질성 (predicate-level transformation heterogeneity)과 관련된 경험적 불일치를 드러냅니다. 왼쪽(left), 앞(front), 오른쪽(right), 뒤(behind)와 같은 방향성 술어(directional predicates)는 관찰 프레임과 함께 변환되어야 하는 반면, '~위에 서 있는(standing on)'이나 '~에 부착된(attached to)'과 같은 대부분의 접촉(contact), 지지(support), 의미론적(semantic) 술어들은 안정적으로 유지되어야 합니다. 이러한 불일치를 줄이기 위해, 우리는 술어 변환 동작에 따라 관계 추론을 디커플링(decoupling)하고 시점 안정적인 객체 표현(viewpoint-stable object representations)에 의해 지원되는 시점 강건한 3DSGG 프레임워크인 변환 인식 디커플링 (Transformation-Aware Decoupling, TAD)을 제안합니다. TAD는 관계 추론을 두 부분으로 분해합니다. 하나는 시점에 관계없이 안정적으로 유지되어야 하는 단서(cues)를 학습하고, 다른 하나는 관찰 프레임과 함께 변해야 하는 방향성 단서를 학습합니다. 이 두 부분은 표준 다중 레이블 술어 예측 (multi-label predicate prediction)을 위해 병합됩니다. 변환 특화 기술자 (Transformation-specific descriptors)와 그룹 인식 보조 감독 (group-aware auxiliary supervision)은 두 브랜치가 상호 보완적인 관계 단서를 포착하도록 장려합니다. 3DSGG에 대한 광범위한 실험 결과, TAD는 훈련 시 회전 증강 (rotation augmentation) 없이도 요(yaw) 시점 변화 하에서 최첨단(state-of-the-art) 강건성을 달성하는 동시에, 표준 벤치마크 하에서 경쟁력 있는 성능을 유지함을 보여줍니다. 프로젝트 페이지는 https://tad-predicate.github.io/ 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0