arXiv논문2026. 06. 24. 11:05

온디바이스 결함 탐지를 위한 경량 Transformer 모델: 자원 제한적 배포에 관한 벤치마크 연구

요약

자원 제한적인 온디바이스 환경에서 결함 탐지를 위한 경량 Transformer 모델과 전통적 ML 방법론의 성능을 비교 분석한 벤치마크 연구입니다. 모델 크기, 지연 시간, 정확도 간의 트레이드오프를 평가하며 양자화 및 적응형 추론 파이프라인의 효과를 검증합니다.

핵심 포인트

경량 Transformer와 전통적 ML의 성능 및 자원 효율성 비교
TinyBERT-4L이 배포 친화적인 모델로 확인됨
INT8 양자화를 통한 모델 크기 25% 절감 효과
적응형 추론 파이프라인을 통한 지연 시간 및 정확도 최적화
데이터 불균형 상황에서의 모델 성능 한계 지적

온디바이스 (On-device) 결함 탐지는 클라우드 의존성 없이 실시간 진단을 가능하게 하지만, 자원이 제한된 하드웨어에 머신러닝 (Machine Learning) 모델을 배포하려면 정확도 (Accuracy), 지연 시간 (Latency), 모델 크기 (Model size) 사이의 신중한 트레이드오프 (Tradeoff)가 요구됩니다. 본 연구에서는 세 가지 공개 데이터셋인 NASA C-MAPSS 터보팬 성능 저하, SECOM 반도체 제조, 그리고 UCI AI4I 2020 예측 유지보수를 대상으로, 전통적인 머신러닝 (ML) 방법론 (Random Forest, XGBoost, SVM, Logistic Regression)과 경량 Transformer 아키텍처 (DistilBERT, TinyBERT-6L, TinyBERT-4L, MobileBERT)를 비교하는 벤치마크를 제시합니다. 우리는 분류 성능 (F1-score, AUC), 모델 크기, 그리고 CPU 추론 지연 시간 (Inference latency)을 평가하며, 나아가 INT8 동적 양자화 (Dynamic quantization) 및 2단계 적응형 추론 파이프라인 (Two-stage adaptive inference pipeline)을 추가로 평가합니다. 연구 결과, 데이터가 잘 분리된 센서 데이터 (C-MAPSS)의 경우, 경량 Transformer는 87.8%의 F1 점수에서 전통적인 ML과 대등한 성능을 보였으나, 모델 크기는 100배, 지연 시간은 9000배 더 컸습니다. TinyBERT-4L은 55 MB의 크기와 18 ms의 CPU 지연 시간을 기록하며 가장 배포 친화적인 Transformer로 나타났습니다. INT8 양자화는 86.9%의 F1 점수를 유지하면서 크기를 25% 줄였습니다. 예측의 97.9%를 양자화된 분류 모델 (Triage model)로 라우팅하고 단 2.1%만을 더 큰 전문가 모델 (Expert)로 전달하는 우리의 적응형 파이프라인은 평균 19.5 ms의 지연 시간으로 87.6%의 F1 점수를 달성했습니다. 데이터 불균형이 심한 데이터셋 (SECOM, UCI-PM)에서는 전통적인 방식과 Transformer 방식 모두 상당한 어려움을 겪었으며, 이는 결함 탐지의 극심한 클래스 불균형 (Class imbalance)에 대한 현재 접근 방식의 근본적인 한계를 보여줍니다. 모든 코드는 공개적으로 사용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

온디바이스 결함 탐지를 위한 경량 Transformer 모델: 자원 제한적 배포에 관한 벤치마크 연구

요약

핵심 포인트

댓글