arXiv논문2026. 06. 17. 22:04

FllumaOne: 실행 가능한 프로그램과 커널 검증된 피처 히스토리를 포함한 코드 네이티브 멀티모달 CAD 데이터셋

요약

FllumaOne은 실행 가능한 Python 프로그램과 커널 검증된 피처 히스토리를 포함하는 코드 네이티브 멀티모달 CAD 데이터셋입니다. 10만 개의 승인된 샘플을 통해 CAD 재구성, 프로그램 합성, B-Rep 분석 등 다양한 설계 연구를 지원합니다.

핵심 포인트

실행 가능한 Python 프로그램과 구조화된 피처 트리 포함
커널 기하 구조 및 솔리드 유효성 검증을 거친 고품질 데이터
Qwen2.5-Coder 기반 모델로 높은 구문 및 빌드 성공률 입증
CAD 재구성, 프로그램 합성, 역설계 연구에 최적화

파라메트릭 컴퓨터 보조 설계 (Parametric computer-aided design)는 최종 기하 구조 (geometry)와 부품을 어떻게 편집할 수 있는지를 결정하는 순차적인 생성 이력 (construction history)을 모두 기록합니다. 따라서 편집 가능한 CAD 연구를 위한 데이터셋은 검증된 기하 구조와 함께 모델링 연산 (modeling operations), 파라미터 (parameters), 그리고 피처 의존성 (feature dependencies)을 함께 노출해야 합니다. 우리는 Qt/C++ OpenCASCADE 기반의 CAD 시스템인 Flluma에서 실행 가능한 Python 프로그램에 의해 모델이 생성되는 코드 네이티브 (code-native) 멀티모달 CAD 데이터셋인 FllumaOne을 소개합니다. 각 샘플은 프로그램과 함께 구조화된 피처 트리 (feature tree, 훈련 지향적 중간 표현 (intermediate representation)), STEP 기하 구조 (STEP geometry), 표면 포인트 클라우드 (surface point cloud), 자연어 설명 (natural-language descriptions), 메타데이터 (metadata), 그리고 8개의 표준 가시 모서리 렌더링 (canonical visible-edge renderings)을 정렬합니다. 첫 번째 릴리스인 FllumaOne-100K는 네 가지 템플릿 수준의 복잡도 영역에 걸쳐 100,000개의 승인된 샘플을 포함합니다. 프로그램은 커널 기하 구조 (kernel geometry), 솔리드 유효성 (solid validity), 그리고 내보내기 (export) 검사를 통과한 후에만 실행 및 유지됩니다. 또한 릴리스 보고서에는 모달리티 완결성 (modality completeness) 및 분할 수준 중복 테스트 (split-level duplicate tests) 결과가 기록됩니다. 80,000개의 샘플로 학습된 Qwen2.5-Coder-1.5B LoRA 베이스라인은 홀드아웃 (held-out) 10,000개 샘플 테스트 분할에서 99.98%의 Python 구문 유효성 (syntax validity), 99.97%의 Flluma 빌드 성공률, 그리고 99.14%의 STEP 내보내기 유효성을 달성했습니다. 표면 포인트 클라우드로 변환된 9,909개의 예측값에 대해 평균 정규화된 Chamfer Distance (mean normalized Chamfer Distance)는 0.002124입니다. 이 데이터셋은 조건부 CAD 재구성 (conditioned CAD reconstruction), 실행 가능한 프로그램 합성 (executable program synthesis), 피처 트리 예측 (feature-tree prediction), B-Rep 분석 (B-Rep analysis), 검색 (retrieval), 설계 완성 (design completion), 그리고 편집 가능한 역설계 (editable reverse engineering)를 지원합니다.

AI 자동 생성 콘텐츠

원문 바로가기

FllumaOne: 실행 가능한 프로그램과 커널 검증된 피처 히스토리를 포함한 코드 네이티브 멀티모달 CAD 데이터셋

요약

핵심 포인트

댓글