본문으로 건너뛰기

© 2026 Molayo

arXiv중요논문2026. 04. 24. 04:13

LEXIS: 이미지 기반 3D 인간-사물 상호작용 복원 모델

요약

본 논문은 RGB 이미지를 통해 3차원(3D)의 인간-사물 상호작용(Human-Object Interaction, HOI)을 복원하는 문제를 다룹니다. 기존 방식이 간헐적인 접촉 신호에 의존하여 자연스러운 연속적 근접성을 포착하지 못했던 한계를 극복하고자 했습니다. 연구진은 'InterFields'라는 개념을 도입하여 몸과 사물 표면 전체의 밀도 높은 연속적 근접도를 인코딩하고, 이를 VQ-VAE를 통해 학습한 이산 매니폴드인 'LEXIS'로 구조화했습니다. 최종적으로 LEXIS 시그니처를 활용하는 확산 모델(Diffusion) 프

핵심 포인트

  • InterFields: 몸과 사물 표면 전체의 밀도 높은 연속적 근접도를 인코딩하여 기존 방식의 한계를 극복합니다.
  • LEXIS (LatEnt ProXimal Interaction Signatures): VQ-VAE를 통해 학습된 상호작용 시그니처의 이산 매니폴드를 구축했습니다.
  • LEXIS-Flow: LEXIS 시그니처를 활용하는 확산 프레임워크로, 물리적으로 그럴듯하고 근접도 인지적인 3D 복원을 수행합니다.
  • 평가 결과: Open3DHOI 및 BEHAVE 데이터셋에서 기존 SOTA 대비 재구성, 접촉, 근접성 품질 모두에서 우수한 성능을 보였습니다.

🖼️ 이미지 기반 3D 인간-사물 상호작용(HOI) 복원 개요

RGB 이미지를 통해 3차원(3D)의 인간-사물 상호작용(Human-Object Interaction, HOI)을 재구성하는 것은 지각 시스템 구축에 필수적입니다. 그러나 이 작업은 신체와 사물 간의 미묘한 물리적 결합 관계를 포착해야 하므로 매우 어렵습니다.

기존 방법론의 한계: 기존 연구들은 주로 희소하고 이진적인(binary) 접촉 단서(contact cues)에 의존했습니다. 하지만 자연스러운 상호작용은 단순히 '접촉'하는 것을 넘어, 몸과 사물 사이의 연속적 근접성(continuous proximity)과 밀도 높은 공간적 관계를 특징으로 합니다. 따라서 기존 방식으로는 이러한 미묘한 물리적 결합을 모델링할 수 없었습니다.

InterFields 도입: 본 논문은 이 한계를 극복하기 위해 'InterFields'라는 새로운 표현 방식을 제안합니다. InterFields는 몸과 사물 표면 전체에 걸쳐 밀도 높고 연속적인 근접도를 인코딩하는 것이 핵심입니다. 하지만 단일 이미지에서 이러한 필드를 추론하는 것은 본질적으로 역문제(ill-posed)의 성격을 가집니다.

LEXIS 구축: 이 문제를 해결하기 위해 연구진은 상호작용 패턴이 행동과 사물의 기하학적 구조에 의해 특징적으로 구조화된다는 직관을 활용했습니다. 이를 바탕으로, VQ-VAE(Vector Quantized Variational Autoencoder)를 통해 학습된 LEXIS (LatEnt ProXimal Interaction Signatures)라는 새로운 이산 매니폴드(discrete manifold)를 구축했습니다. LEXIS는 상호작용 시그니처를 효율적으로 포착하는 핵심 구조입니다.

LEXIS-Flow 프레임워크: 최종적으로, 연구진은 LEXIS-Flow라는 확산 모델(Diffusion framework)을 개발했습니다. 이 프레임워크는 학습된 LEXIS 시그니처를 활용하여 인간 및 사물 메시(mesh)와 그에 대응하는 InterFields를 추정합니다.

가장 중요한 특징은, InterFields가 후처리 최적화(post-hoc optimization) 없이도 물리적으로 그럴듯하고 근접도 인지적인(proximity-aware) 재구성을 유도하는 가이드 역할을 한다는 점입니다. 이는 단순히 3D 구조를 복원하는 것을 넘어, 상호작용의 '물리적 타당성'까지 보장합니다.

결과 및 의의: Open3DHOI와 BEHAVE 데이터셋을 사용한 평가 결과, LEXIS-Flow는 기존 SOTA(State-of-the-Art) 모델 대비 재구성 품질, 접촉 정확도, 근접성 품질 모든 면에서 현저하게 뛰어난 성능을 입증했습니다. 이 접근 방식은 일반화 능력 향상뿐만 아니라, 인간의 상호작용 장면 이해에 대한 전반적인 현실감(realism)을 높여 3D 전체 장면 이해(holistic 3D scene understanding)에 한 걸음 더 다가섰다는 의의를 가집니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0