X요약2026. 07. 02. 13:13

기본 요소가 아닌 객체로서의 장면

요약

피드포워드 모델을 통해 3D 주석 없이도 이미지로부터 3D 장면을 인스턴스 구조화된 토큰 그룹으로 분해하는 기술을 소개합니다. 단 한 번의 포워드 패스로 객체의 정체성을 파악하여 재구성, 세그멘테이션, 조작을 가능하게 합니다.

핵심 포인트

3D 주석 없이 unposed 이미지에서 3D 장면 분해 가능
인스턴스 구조화된 토큰 그룹 방식 채택
단일 포워드 패스로 객체 재구성 및 세그멘테이션 수행
객체 정체성 기반의 3D 조작 가능성 제시

기본 요소 (primitives)가 아닌 객체로서의 장면

피드포워드 (feed-forward) 모델은 3D 주석 (annotations) 없이도, 포즈가 지정되지 않은 (unposed) 이미지로부터 3D 장면을 인스턴스 구조화된 토큰 그룹 (instance-structured token groups)으로 분해합니다.

네이티브 객체 정체성 (Native object identity)은 단 한 번의 포워드 패스 (forward pass)로 재구성 (reconstruction), 세그멘테이션 (segmentation), 그리고 조작 (manipulation)을 가능하게 합니다. https://t.co/uqejVuwzG5
[IMG:1]

AI 자동 생성 콘텐츠

원문 바로가기

Insights

기본 요소가 아닌 객체로서의 장면

요약

핵심 포인트

댓글

구글이 제미나이 개인화 이미지 생성을 미국 무료 사용자 전원에게 풀었다. 유료 구독자 전용이던 기능인데, 왜 갑자기 공짜가 됐을까.

이것은 정말 AI가 생성한 것 같지 않네요, 너무 사실적입니다!!

AI 시대이기 때문에 더욱 사양과 설계가 필요하다고 생각한다

AI는 결함을 인지하고도 고치지 않는다, OpenAI의 GeneBench-Pro가 측정하는 격차