arXiv논문2026. 06. 26. 11:10

산업용 IoT의 온디바이스 LLM 추론을 위한 계층적 다중 입도 프루닝 (Cascaded Multi-Granularity Pruning)

요약

산업용 IoT 엣지 디바이스의 LLM 배포를 위해 계층적 다중 입도 프루닝(Cascaded Multi-Granularity Pruning) 프레임워크를 제안합니다. 레이어부터 채널까지 단계별로 압축하며 저차원 복구를 통해 성능 저하를 최소화하고, 아키텍처별 프루닝 신뢰성을 예측하는 SIA 조건을 공식화했습니다.

핵심 포인트

계층적 단계별 프루닝과 저차원 복구를 통한 고압축 달성
구조적 독립성 가정(SIA)을 통한 아키텍처별 프루닝 타당성 검증
MHA+GELU 설계에서 최대 13.8배 압축 및 높은 정확도 유지
추론 지연 시간 최대 67.2%, 피크 메모리 62.5% 감소 효과

산업용 사물인터넷 (Industrial Internet of Things, IIoT) 엣지 디바이스에 대규모 언어 모델 (Large Language Models, LLMs)을 배포하려면 극단적인 압축이 필요하지만, 기존의 구조적 프루닝 (Structured Pruning) 방식은 단판 중요도 추정 (One-shot importance estimation)으로 인해 높은 압축률에서 성능이 무너지고, 아키텍처 간의 동작 방식 또한 예측 불가능합니다. 본 논문은 레이어 (Layers), 어텐션 헤드 (Attention heads), 그리고 피드포워드 채널 (Feed-forward channels)을 거친 단계에서 미세한 단계로 제거하는 계층적 다중 입도 프루닝 (Cascaded multi-granularity pruning) 프레임워크를 제시하며, 각 단계 사이에 경량 저차원 복구 (Low-rank recovery)를 적용하여 구성 요소의 중요도를 재추정합니다. 정보 이론적 분석을 통해 이러한 순서의 타당성을 입증하였으며, 구조적 독립성 가정 (Structural Independence Assumption, SIA)을 특정 아키텍처에 대해 구성 요소별 프루닝 기준이 신뢰할 수 있는지 예측하는 검증 가능한 조건으로 공식화했습니다. 분석 결과, Multi-Head Attention (MHA)+GELU 설계는 SIA를 충족하는 반면, Grouped Query Attention (GQA)+SwiGLU 설계는 이를 위반하는 것으로 나타났습니다. 88M에서 6.25B 파라미터 모델에 걸친 베어링 결함 진단 테스트에서, 이 프레임워크는 MHA+GELU 아키텍처에서 달성 가능한 압축률을 13.8배까지 확장하면서도 83.82%의 정확도(가장 강력한 베이스라인 대비 +3.70 퍼센트 포인트 (pp))를 기록했습니다. 반면, SIA를 위반하는 GQA+SwiGLU 아키텍처에서는 약 74pp의 정확도 급락이 발생함을 확인했습니다. NVIDIA DGX Spark 기반의 산업용 스leving 베어링 결함 진단 플랫폼에 배포된 결과, 압축된 모델은 추론 지연 시간 (Inference latency)을 최대 67.2% 줄이고 피크 메모리 (Peak memory)를 62.5% 감소시켜 IIoT 엣지 추론에서의 실행 가능성을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

산업용 IoT의 온디바이스 LLM 추론을 위한 계층적 다중 입도 프루닝 (Cascaded Multi-Granularity Pruning)

요약

핵심 포인트

댓글