Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.GR (Graphics) 69건필터 해제
CutVerse: 미디어 후반 작업 편집을 위한 구성적 GUI 에이전트 벤치마크
CutVerse는 전문적인 미디어 후반 작업 환경에서 자율 GUI 에이전트의 능력을 평가하기 위해 설계된 새로운 벤치마크입니다. Premiere Pro와 Photoshop 등 7개의 전문 애플리케이션을 활용하여 186개의 복잡한 과제를 제공하며, 기존 에이전트들이 실제 편집 워크플로에서 낮은 성공률을 보임을 입증했습니다.
모든 카메라 경로 시각화 엔진을 지원하는 3D Skew Gaussian Splatting
본 논문은 기존 3D Gaussian Splatting(3DGS)이 대칭적인 가우시안 분포에 의존하여 발생하는 시각적 아티팩트와 공간 데이터 탐색의 한계를 극복하기 위해, 새로운 프레임워크인 3D Skew Gaussian Splatting (3DSGS)을 제안합니다. 3DSGS는 표준 원시 요소를 일반적인 Skew Gaussian 대응물로 확장하여 비대칭 모델링 능력을 확보하고, 깊이 인식 밀집화 전략과 결합해 복잡한 투명도 처리 및 구조적 충실도를 높였습니다. 또한, 대칭 및 Skew Gaussian을 모두 지원하는 CUDA 래스터화 파이프라인을 개발하여 실시간 인터랙티브 시각화 엔진에 통합함으로써 실제 분석 환경에서의 활용성을 입증했습니다.
3DEditSafe: 안전하지 않은 생성을 통한 3D 편집 파이프라인 방어
3D Gaussian Splatting(3DGS) 기반의 3D 생성 편집 파이프라인에서 발생할 수 있는 NSFW 콘텐츠 생성 위험을 분석하고 이를 방어하는 3DEditSafe 프레임워크를 제안합니다. 기존의 2D 안전 가이드만으로는 3D 공간에서의 일관된 부적절한 콘텐츠 생성을 막기 어렵다는 점을 지적하며, 최적화 과정에서 안전 규제를 적용하는 새로운 방식을 제시합니다.
합성된 사회성 (Synthetic Sociality): 생성형 모델이 어떻게 사회적 구조를 사유화하는가
본 논문은 생성형 모델이 지능을 넘어 인간의 '사회적 행위(social doing)'를 자동화하고 상품화하는 과정을 비판적 이론 프레임워크로 분석합니다. 저자들은 사회적 데이터의 가용성과 사회성의 상품화 과정을 고찰하며, 생성형 모델이 사회적 관계를 대체하거나 매개하는 방식을 구분합니다. 최종적으로 실리콘 밸리의 비민주적 모델이 만들어내는 '합성된 사회성(Synthetic Sociality)' 개념을 통해 사회적 현실의 조작 가능성을 경고합니다.
Delta Forcing: 상호작용형 자기회귀 비디오 생성을 위한 신뢰 영역 스티어링 (Trust Region Steering)
Delta Forcing은 상호작용형 실시간 비디오 생성 시 발생하는 반응성과 안정성 사이의 불균형 문제를 해결하기 위한 새로운 프레임워크입니다. 기존 방식이 조건 변화 시 발생하는 드리프트 현상을 극복하지 못하는 원인을 조건부 편향으로 규명하고, 신뢰 영역 정책 최적화 개념을 도입하여 교사 모델의 가이드를 적응형 신뢰 영역 내로 제한합니다. 이를 통해 새로운 이벤트에 즉각적으로 반응하면서도 긴 시간 범위 동안 시각적 일관성을 유지할 수 있습니다.
SceneForge: 3D 개입을 통한 구조화된 세계 감독 (Structured World Supervision)
SceneForge는 편집 가능한 3D 세계 상태를 활용하여 멀티모달 학습을 위한 구조화된 감독(Supervision)을 생성하는 프레임워크입니다. 장면의 의미적, 기하학적, 물리적 의존성을 유지하며 객체 제거 및 카메라 변화와 같은 명시적 개입을 적용함으로써, 일관성 있는 반사실적 관찰과 다중 시점 데이터를 생성합니다. 이를 통해 객체 및 장면 제거 성능을 크게 향상시키는 라이선스 프리 실내 감독 리소스를 구축했습니다.
DiffPhD: 접촉이 풍부한 GPU 가속 환경에서 탄성역학 내 투영 이종 재료를 위한 통합 미분 가능 솔버
DiffPhD는 이종 재료, 초탄성, 접촉이 풍부한 상호작용을 동시에 처리할 수 있는 GPU 가속 미분 가능 투영 역학 프레임워크입니다. 기존 솔버가 해결하기 어려웠던 극단적인 강성 대비 문제를 해결하며, 단일 희소 인자 재사용과 Anderson 가속 스킴을 통해 높은 정확도와 속도를 동시에 달성했습니다. 이를 통해 복잡한 연성체 시뮬레이션 환경에서 엔드투엔드 그래디언트 기반 최적화를 가능하게 합니다.
TOPOS: 고충실도 및 효율적인 산업 등급 3D Head 생성
TOPOS는 단일 이미지를 기반으로 산업 표준의 고정된 토폴로지를 가진 고충실도 3D Head를 생성하는 프레임워크입니다. 기존 3D 생성 모델과 달리 일관된 정점 대응을 지원하여 리깅 및 애니메이션 등 실제 제작 파이프라인에 즉시 활용 가능한 자산을 생성합니다. TOPOS-VAE와 TOPOS-DiT를 통해 기하학적 구조를 복원하며, TOPOS-Texture를 통해 재조명 가능한 UV 텍스처 맵까지 엔드투엔드로 생성합니다.
AnchorRoute: 구간 경로 지정형 희소 제어를 통한 인간 동작 합성
AnchorRoute는 사용자가 지정한 소수의 루트 위치, 궤적, 신체 지점(Sparse anchors)을 기반으로 전신 동작을 합성하고 정교화하는 프레임워크입니다. 생성 단계에서는 사전 학습된 확산 모델에 앵커 정보를 주입하여 동작을 생성하고, 정교화 단계에서는 RouteSolver를 통해 지정된 앵커를 엄격히 준수하도록 동작을 수정합니다. 이를 통해 텍스트-동작 생성 품질을 유지하면서도 사용자의 의도에 부합하는 정밀한 공간 제어를 가능하게 합니다.
UMo: 실시간 Co-Speech 아바타를 위한 통합 희소 모션 모델링 (Unified Sparse Motion Modeling)
UMo는 실시간 Co-Speech 아바타 구현을 위해 텍스트, 오디오, 모션 토큰을 통합 처리하는 희소 모션 모델링 아키텍처입니다. 공간적 MoE(Mixture-of-Experts)와 시간적 키프레임 중심 설계를 통해 얼굴 표정과 제스처를 실시간으로 고품질 생성하며, 낮은 지연 시간 내에서도 정교한 음성-모션 정렬을 유지합니다.
BioHuman: 비디오로부터 생체역학적 인간 표현 학습하기
BioHuman은 비디오를 통해 인간의 외형적 움직임뿐만 아니라 내부의 근육 활성도까지 함께 추정하는 엔드 투 엔드 모델입니다. 시뮬레이션 기반 프레임워크를 통해 구축된 대규모 데이터셋 BioHuman10M을 활용하여, 단안 비디오로부터 생체역학적 상태를 효과적으로 재구성합니다. 이 연구는 동작 분석, 재활, 부상 위험 평가를 위한 물리적으로 근거 있는 인간 모델링의 새로운 가능성을 제시합니다.
컴퓨터 그래픽스 연구의 인종적 특성
컴퓨터 그래픽스 알고리즘이 인간을 묘사할 때 보편성을 주장하지만, 실제로는 백인 피부와 직모를 기준으로 설계되어 인종적 편향성을 띠고 있음을 분석합니다. 연구진은 이러한 현상을 '맥다니엘스 방법론'으로 정의하며, 이를 극복하기 위해 다양한 인종적 특성을 반영한 공동 설계 방식인 '듀랄드 방법론'을 제안합니다.
Denoising-GS: 공간 인지형 디노이징을 적용한 Gaussian Splatting
Denoising-GS는 3D Gaussian Splatting(3DGS) 최적화 과정에서 발생하는 노이즈 섞인 Gaussian primitives 문제를 해결하기 위한 새로운 프레임워크입니다. 공간 인지형 디노이징을 통해 위치와 공간 구조를 동시에 고려하며, 불확실성 기반의 가지치기와 공간적 일관성 정밀화를 통해 고충실도 신규 시점 합성을 구현합니다.
Meschers: 불가능한 물체의 기하학적 처리 (Geometry Processing of Impossible Objects)
Meschers는 기존의 절단이나 구부리기 방식 대신 이산 외미분학(discrete exterior calculus)을 기반으로 불가능한 물체의 기하학적 구조를 표현하는 새로운 메쉬 방식을 제안합니다. 이 방식은 기존 방식이 초래하던 국소 기하학의 변형이나 재조명 문제를 해결하며, 역렌더링을 포함한 다양한 기하학적 연산을 가능하게 합니다.
Articraft: 확장 가능한 관절형 3D 에셋 생성을 위한 에이전트 시스템
Articraft는 대규모 언어 모델(LLMs)을 활용하여 관절형(Articulated) 3D 에셋을 대규모로 생성하는 새로운 에이전트 시스템입니다. 3D 에셋 생성을 코드를 작성하는 문제로 정의하고, 도메인 특화 SDK와 하네스를 통해 LLM이 정교한 부품 정의 및 관절 설계를 수행하도록 설계되었습니다. 이를 통해 245개 카테고리에 걸친 1만 개 이상의 고품질 에셋 데이터셋인 Articraft-10K를 구축하였습니다.
Transformer를 통한 Lagrangian 입자 역학의 통합 시뮬레이션
본 논문은 천, 유체, 고체 등 다양한 물리 현상을 단일 Transformer 아키텍처로 시뮬레이션할 수 있는 통합 입자 시뮬레이터를 제안합니다. 예측-수정(prediction-correction) 설계를 기반으로 하며, 슈퍼 토큰(super tokens) 개념을 도입하여 입자 간 상호작용을 효율적으로 계산하고 계산 비용을 절감합니다. 이를 통해 학습되지 않은 재료나 경계 조건에서도 높은 일반화 성능을 보여줍니다.
Sound Sparks Motion: 비디오 편집을 위한 오디오 및 텍스트 튜닝
Sound Sparks Motion은 대규모 생성 비디오 모델이 어려워하는 국소적 동작 및 상태 전이 편집을 위해 제안된 학습이 필요 없는(training-free) 프레임워크입니다. 모델 가중치를 수정하는 대신 오디오 잠재 변수와 텍스트 조건화 내의 잔차 섭동만을 튜닝하여 정교한 모션 편집을 가능하게 합니다. 시각-언어 모델을 활용한 피드백을 통해 텍스트와 모션 간의 시간적 정렬을 가이드하며, 학습된 제어 신호는 다른 비디오로의 전이도 가능합니다.
FFAvatar: 소량의 이미지로 가능한 피드포워드 방식의 일반화된 아바타 재구성
FFAvatar는 소량의 포즈가 지정되지 않은 초상화 이미지로부터 고품질의 3D 가우시안 머리 아바타를 단 몇 초 만에 재구성하는 피드포워드 프레임워크입니다. Multi-View Query-Former를 통해 여러 이미지 정보를 통합하며, FLAME 파라미터를 직접 예측하여 애니메이션화 과정의 오버헤드를 제거했습니다. 3단계 학습 커리큘럼을 통해 높은 일반화 성능과 기하학적 충실도를 동시에 달성했습니다.
특징 공간 (Feature Space)에서의 3D 기하학을 위한 그룹 컨볼루션 신경망 (GCNNs)의 이산화
GCNNs는 대칭성을 유지하기 위해 변환 그룹을 조밀하게 샘플링하지만, 3D 환경에서는 자유도가 높아 계산 비용이 기하급수적으로 증가하는 문제가 있습니다. 본 논문은 특징 공간에서 유사성을 기반으로 대표 샘플을 선택하는 이산화 방법을 제안하여, 계산 비용과 정확도 사이의 효율적인 절충안을 제시합니다. 실험 결과, 거친 샘플링만으로도 분류 정확도를 효과적으로 유지하며 3D 분류기 훈련 속도를 크게 향상시킬 수 있음을 입증했습니다.
OffsetAxis: 오프셋 볼륨 중심축 추출을 통한 UDF 메쉬 재구성
OffsetAxis는 UDF(Unsigned Distance Fields)로부터 열린 경계나 비매니폴드 구조를 포함한 복잡한 메쉬를 재구성하는 새로운 파이프라인을 제안합니다. 0-레벨 셋 추출 문제를 $\alpha$-오프셋 볼륨의 중심축(medial axis) 추출 문제로 재정의하여, 기존 그리드 기반 방식의 한계를 극복하고 구조적으로 일관된 메쉬를 생성합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.