arXiv논문2026. 06. 04. 12:04

UniCAD: 멀티모달 멀티태스크 CAD를 위한 통합 벤치마크 및 범용 모델

요약

UniCAD는 멀티모달 및 멀티태스크 CAD 학습을 위한 통합 벤치마크와 범용 모델인 UniCAD-MLLM을 제안합니다. 텍스트, 이미지, 스케치 등 다양한 입력을 통해 CAD 재구성, 생성, 질의응답을 단일 프레임워크에서 수행하며 최첨단 성능을 입증했습니다.

핵심 포인트

멀티모달 CAD 학습을 위한 통합 벤치마크 UniCAD 소개
다양한 입력을 처리하는 범용 MLLM UniCAD-MLLM 제시
포인트-투-CAD, 텍스트/이미지-투-CAD 등 이질적 작업 수행
기존 작업 특화형 모델을 능가하는 SOTA 성능 달성
데이터셋, 코드 및 사전 학습된 모델 공개 예정

컴퓨터 보조 설계 (Computer-Aided Design, CAD)는 정밀하고 편집 가능한 3D 모델 생성을 가능하게 함으로써 현대 공학 및 제조의 근간을 이룹니다. 그러나 CAD 연구는 일반적으로 개별적인 작업들을 고립된 상태로 연구하며, CAD를 위한 멀티모달 (multi-modal), 멀티태스크 (multi-task) 학습은 통합된 벤치마크 (benchmark)의 부재로 인해 어려움을 겪고 있습니다. 이러한 격차를 해소하기 위해, 우리는 다양한 입력 양식 (modalities)에 걸쳐 포인트-투-CAD 재구성 (point-to-CAD reconstruction), 텍스트/이미지-투-CAD 생성 (text/image-to-CAD generation), 그리고 CAD 질의응답 (question answering)을 아우르는 멀티모달 CAD 학습을 위한 포괄적인 벤치마크인 UniCAD를 소개합니다. 벤치마크와 더불어, 우리는 텍스트, 이미지, 스케치, 포인트 클라우드 (point clouds)를 입력받아 단일 프레임워크 내에서 이러한 이질적인 작업들을 엔드-투-엔드 (end-to-end) 방식으로 수행하는 범용 멀티모달 대규모 언어 모델 (multi-modal large language model, MLLM)인 UniCAD-MLLM을 제시합니다. UniCAD 및 Fusion360 벤치마크에 대한 광범위한 실험을 통해 UniCAD-MLLM이 모든 작업에서 최첨단 (state-of-the-art) 성능을 달성하며, 기존의 작업 특화형 (task-specific) 및 멀티태스크 베이스라인 (baselines)을 능가함을 입증했습니다. 우리는 향후 연구를 가속화하기 위해 데이터셋, 코드 및 사전 학습된 모델 (pretrained models)을 공개할 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

UniCAD: 멀티모달 멀티태스크 CAD를 위한 통합 벤치마크 및 범용 모델

요약

핵심 포인트

댓글