DART: 종합적인 로프 상태 감시를 위한 비전-언어 기반 모델
요약
DART(Damage Assessment via Rope Transformer)는 합성 섬유 로프(SFRs)의 상태 모니터링(CM)을 위한 비전-언어 기반 통합 모델입니다. 이 모델은 Vision Transformer와 Llama-3.2를 결합하고, Joint-Embedding Predictive Architecture (JEPA)를 크로스 모달 도메인으로 확장하여 다중 작업 아키텍처를 구현했습니다. DART는 손상 분류, 연속적 심각도 회귀, 그리고 few-shot 인식 등 다양한 로프 검사 작업을 단일 백본에서 수행할 수 있어, 기존의 분류기 기반 시스템을 뛰어넘는 일반적인 CM 솔루션을 제공합니다.
핵심 포인트
- DART는 SFR 상태 모니터링을 위해 Vision-Language Foundation Model 접근 방식을 채택했습니다.
- 모델은 ViT와 Llama-3.2를 Severity-Conditioned Cross-Modal Fusion (SC-CMF) 모듈로 결합하여 다중 작업 아키텍처를 구축했습니다.
- 세 가지 혁신적인 아키텍처(HD-MASK, per-class severity gates, CDD loss)가 모델의 범용성과 성능을 극대화합니다.
- 단일 훈련으로 손상 분류, 심각도 회귀, few-shot 인식 등 다양한 다운스트림 작업을 지원하는 일반적인 CM 백본 역할을 수행합니다.
Offshore, maritime, and industrial settings 에서 사용되는 합성 섬유 로프 (Synthetic Fibre Ropes, SFRs) 의 상태 모니터링 (Condition Monitoring, CM) 은 분류기 (classifier) 보다 더 많은 것을 요구합니다: 검사원은 단일 검사 이미지에서 지속적인 심각도 추정치, 유지보수 권장 사항, 이상 징후 플래그, 열화 타임라인, 그리고 자동화된 보고서를 필요로 합니다. 우리는 DART (Damage Assessment via Rope Transformer) 를 제시합니다. 이는 Vision-Language Foundation Model 로서, 통합 다중 작업 아키텍처를 통해 전체 로프 검사 워크플로우를 해결합니다. DART 는 Vision Transformer (ViT-H/14) 와 Llama-3.2-3B-Instruct 를 Severity-Conditioned Cross-Modal Fusion (SC-CMF) 모듈을 통해 결합하여 Joint-Embedding Predictive Architecture (JEPA) 를 크로스 모달 도메인으로 확장합니다. 모델의 versatility 는 세 가지 아키텍처 혁신에 의해 주도됩니다: (1) HD-MASK, 손상 밀집 패치에 초점을 맞춘 saliency-guided masking 전략; (2) 손상 카테고리에 따라 언어 지정을 적응적으로 가중치는 per-class learnable severity gates; 그리고 (3) Contrastive Damage Disentanglement (CDD) loss, 이는 임베딩 공간을 형성하여 동시에 손상 유형, 심각도 순서, 그리고 크로스 모달 семанти스를 인코딩합니다. 14 개의 세밀한 로프 손상 클래스를 아우르는 4,270 장의 이미지로 한 번에 훈련된 고정된 DART 백본은 특정 작업의 fine-tuning 없이 downstream tasks 를 지원합니다: 손상 분류 (93.22 % 정확도, 91.04 % macro-F1, 비전 전용 baseline 대비 +38.5 pp), 연속적 심각도 회귀 (Spearman rho = 0.94, within-1-ordinal 정확도 99.6 %), 그리고 few-shot recognition (20 shots 에서 89.2 % macro-F1). 이러한 결과는 DART 가 분류를 넘어가는 일반적인 CM 백본으로 작동하며, 단일 공유 표현에서 실행 가능한 검사 지능을 제공함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기