산업용 IoT의 온디바이스 LLM 추론을 위한 계층적 다중 입도 프루닝 (Cascaded Multi-Granularity Pruning)
요약
산업용 IoT 엣지 디바이스의 LLM 배포를 위해 계층적 다중 입도 프루닝(Cascaded Multi-Granularity Pruning) 프레임워크를 제안합니다. 레이어부터 채널까지 단계별로 압축하며 저차원 복구를 통해 성능 저하를 최소화하고, 아키텍처별 프루닝 신뢰성을 예측하는 SIA 조건을 공식화했습니다.
핵심 포인트
- 계층적 단계별 프루닝과 저차원 복구를 통한 고압축 달성
- 구조적 독립성 가정(SIA)을 통한 아키텍처별 프루닝 타당성 검증
- MHA+GELU 설계에서 최대 13.8배 압축 및 높은 정확도 유지
- 추론 지연 시간 최대 67.2%, 피크 메모리 62.5% 감소 효과
산업용 사물인터넷 (Industrial Internet of Things, IIoT) 엣지 디바이스에 대규모 언어 모델 (Large Language Models, LLMs)을 배포하려면 극단적인 압축이 필요하지만, 기존의 구조적 프루닝 (Structured Pruning) 방식은 단판 중요도 추정 (One-shot importance estimation)으로 인해 높은 압축률에서 성능이 무너지고, 아키텍처 간의 동작 방식 또한 예측 불가능합니다. 본 논문은 레이어 (Layers), 어텐션 헤드 (Attention heads), 그리고 피드포워드 채널 (Feed-forward channels)을 거친 단계에서 미세한 단계로 제거하는 계층적 다중 입도 프루닝 (Cascaded multi-granularity pruning) 프레임워크를 제시하며, 각 단계 사이에 경량 저차원 복구 (Low-rank recovery)를 적용하여 구성 요소의 중요도를 재추정합니다. 정보 이론적 분석을 통해 이러한 순서의 타당성을 입증하였으며, 구조적 독립성 가정 (Structural Independence Assumption, SIA)을 특정 아키텍처에 대해 구성 요소별 프루닝 기준이 신뢰할 수 있는지 예측하는 검증 가능한 조건으로 공식화했습니다. 분석 결과, Multi-Head Attention (MHA)+GELU 설계는 SIA를 충족하는 반면, Grouped Query Attention (GQA)+SwiGLU 설계는 이를 위반하는 것으로 나타났습니다. 88M에서 6.25B 파라미터 모델에 걸친 베어링 결함 진단 테스트에서, 이 프레임워크는 MHA+GELU 아키텍처에서 달성 가능한 압축률을 13.8배까지 확장하면서도 83.82%의 정확도(가장 강력한 베이스라인 대비 +3.70 퍼센트 포인트 (pp))를 기록했습니다. 반면, SIA를 위반하는 GQA+SwiGLU 아키텍처에서는 약 74pp의 정확도 급락이 발생함을 확인했습니다. NVIDIA DGX Spark 기반의 산업용 스leving 베어링 결함 진단 플랫폼에 배포된 결과, 압축된 모델은 추론 지연 시간 (Inference latency)을 최대 67.2% 줄이고 피크 메모리 (Peak memory)를 62.5% 감소시켜 IIoT 엣지 추론에서의 실행 가능성을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기