본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 12. 16:45

IterCAD: 시각적 근거 기반 CAD 생성 및 편집을 위한 반복형 멀티모달 에이전트

요약

본 논문은 CAD 생성 및 편집의 한계를 극복하기 위해 'IterCAD'라는 통합 멀티모달 에이전트 프레임워크를 제안합니다. IterCAD는 다중 턴 상호작용을 통해 드로잉/텍스트 기반 코드 생성과 반복적인 편집 작업을 지원하며, 폐쇄 루프(closed-loop)의 CAD 작업 방식을 구현했습니다.

핵심 포인트

  • IterCAD: 폐쇄 루프 상호작용형 CAD 에이전트 프레임워크 제시
  • 드로잉-투/텍스트-투 코드 및 반복적 편집 기능 포괄
  • SFT와 기하학 인식 강화 학습으로 성능 최적화
  • 코드 유효성 및 기하학 정밀도를 측정하는 CD-TR 메트릭 도입

컴퓨터 지원 설계(Computer-Aided Design)는 현대 제조에서 핵심적인 역할을 하지만, 기존의 자동화된 방법들은 주로 개방 루프(open-loop), 일회성 생성을 기반으로 하여, 실제 세계의 반복적인 작업 방식과 불일치를 보입니다. 본 논문에서는 폐쇄 루프(closed-loop)의 상호작용적 CAD 생성 및 편집을 위한 통합 멀티모달 에이전트 프레임워크인 IterCAD를 제시합니다. 우리는 이 작업을 멀티모달 에이전트와 실행 가능한 CAD 샌드박스 간의 다중 턴(multi-turn) 상호작용으로 공식화하며, 이는 드로잉-투-코드(Drawing-to-Code), 텍스트-투-코드(Text-to-Code), 그리고 상호작용적 편집 세 가지 작업을 포괄합니다. 이를 지원하기 위해, 우리는 표준 규격에 맞는 다중 뷰 엔지니어링 도면, 복잡한 코드 편집 작업, 고충실도 상호작용 궤적을 생성하는 고급 산업 제조 기능을 통합한 데이터 합성 파이프라인을 개발했습니다. 우리는 에이전트를 진보적인 SFT(Supervised Fine-Tuning)를 거친 후, 실행 가능한 접두사 마스킹(viable-prefix masking)을 사용한 기하학 인식 강화 학습(geometry-aware reinforcement learning)으로 최적화하여 코드 실행 가능성과 기하학적 충실도를 향상시킵니다. 마지막으로, 우리는 IterCAD-Bench 평가 스위트를 소개하고, 코드 유효성 및 기하학적 정밀도를 통합하는 생존자 편향이 없는 표준인 Chamfer Distance Tolerance-Recall (CD-TR) 곡선과 그 AUC-TR 메트릭을 제안합니다. 광범위한 실험은 IterCAD가 여러 벤치마크에서 매우 경쟁력 있는 성능을 달성하며, 코드 실행 가능성과 기하학적 정밀도 모두에서 기존 접근 방식을 크게 능가하고, 폐쇄 루프 반복 개선에서 우수한 역량을 보여준다는 것을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0