arXiv논문2026. 06. 02. 11:44

KDH-CAD: 데이터 부족 상황에서의 지식-데이터 하이브리드 CAD 학습

요약

KDH-CAD는 데이터 부족 문제를 해결하기 위해 파운데이션 모델의 지식과 구조화된 도메인 지식을 결합한 하이브리드 프레임워크입니다. 적은 양의 레이블된 데이터만으로도 기계 부품 분류에서 높은 정확도를 달성하며 데이터 효율성을 입증했습니다.

핵심 포인트

지식 완성 및 보정 방식을 통한 CAD 학습 문제 해결
파운데이션 모델과 구조화된 도메인 지식의 통합
250개 샘플로 92.6%의 높은 분류 정확도 달성
대규모 CAD 데이터셋에 대한 의존도 획기적 감소

컴퓨터 보조 설계 (CAD) 분야의 딥러닝 (Deep learning)은 데이터 부족 (data scarcity) 문제로 인해 근본적인 제약을 받고 있습니다. 실제 CAD 데이터는 대규모로 수집하기 어렵고, 합성 데이터 (synthetic data)는 실제 설계 관행을 충실히 반영하지 못할 수 있기 때문입니다. 본 논문은 점점 더 커지는 CAD 데이터셋을 추구하는 대신, CAD 학습을 지식 완성 (knowledge completion) 및 보정 (calibration) 문제로 대안적으로 다룹니다. 본 연구는 파운데이션 모델 (foundation models)의 사전 학습된 지식, 교과서/튜토리얼로부터 얻은 구조화된 도메인 지식 (domain knowledge), 그리고 매우 적은 양의 레이블이 지정된 (labeled) CAD 데이터를 통합하는 지식-데이터 하이브리드 프레임워크인 KDH-CAD를 소개합니다. 도메인 지식은 사전 학습된 파운데이션 모델에서 약하게 표현되거나 충분히 나타나지 않는 CAD 관련 개념을 이끌어내고 완성하는 데 사용되며, 레이블이 지정된 CAD 데이터는 파운데이션 모델을 미세 조정 (fine-tuning)하지 않고도 작업 특유의 기하학적 변동성 (geometric variability)을 고려하여 잠재 공간 (latent space) 내에서 이러한 개념들을 보정합니다. 실제 기계 부품 분류 (mechanical part classification)에 대한 실험 결과, KDH-CAD는 데이터가 적은 환경 (low-data regimes)에서도 강력한 성능을 달성함을 보여주었습니다. 구체적으로 단 250개의 훈련 샘플로 92.6%의 정확도를, 1,000개의 샘플로 95.8%의 정확도를 기록했으며, 데이터가 추가됨에 따라 성능이 계속 향상되었습니다. 이는 일반적으로 10배 더 많은 데이터를 필요로 하는 최첨단 (state-of-the-art) 성능과 일치하거나 이를 상회하는 수준입니다. 이러한 결과는 사전 학습된 파운데이션 모델을 구조화된 도메인 지식과 결합함으로써 대규모 CAD 데이터셋에 대한 의존도를 실질적으로 줄일 수 있음을 시사하며, 데이터 효율적인 (data-efficient) CAD 학습을 위한 원칙적이고 실용적인 방향을 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

KDH-CAD: 데이터 부족 상황에서의 지식-데이터 하이브리드 CAD 학습

요약

핵심 포인트

댓글