S4oP: 자원 제한적 장치를 위한 구조적 상태 공간 모델(SSM)의 연산자 수준 프루닝 (Operator-level Pruning)
요약
S4 및 S4D와 같은 구조적 상태 공간 모델(SSM)의 추론 비용을 줄이기 위한 새로운 연산자 수준 프루닝 기법을 제안합니다. 구조적 마스킹과 미세 조정을 결합하여 성능 저하를 최소화하면서도 연산 효율성을 극대화하는 방법을 다룹니다.
핵심 포인트
- SSM의 계산 및 메모리 요구 사항을 줄이는 점진적 프루닝 방식 제안
- 구조적 마스킹과 미세 조정을 교차하여 연산자를 점진적으로 제거
- 연산자의 최대 70%를 프루닝해도 원본 모델의 성능을 대부분 유지
- 자원 제한적 환경에서 SSM 모델의 실질적인 배포 가능성 입증
S4 및 S4D 아키텍처를 포함한 구조적 상태 공간 모델 (Structured State Space Models, SSMs)은 최근 순차적 데이터(sequential data)에서 장기 의존성(long-range dependencies)을 포착하기 위한 어텐션 기반 모델(attention-based models)의 강력한 대안으로 부상했습니다. 강력한 실증적 성능에도 불구하고, 이러한 모델들은 계산 및 메모리 요구 사항으로 인해 시간 및 자원이 제한된 환경에 배포하는 데 여전히 어려움이 있습니다. 본 논문에서는 예측 성능을 유지하면서 추론 비용을 크게 줄이는 S4 및 S4D 기반 모델을 위한 새로운 점진적 연산자 수준 프루닝 (operator-level pruning) 접근 방식을 제안합니다. 우리가 알고 있는 바로는, 이는 SSM을 위한 구조적 연산자 프루닝 (structured operator pruning)을 체계적으로 조사한 첫 번째 연구입니다. 우리의 방법은 정확도와 추론 지연 시간 (inference latency)을 공동으로 모니터링하면서, 구조적 마스킹 (structured masking)과 미세 조정 (fine-tuning)을 교차하여 모델 연산자를 점진적으로 프루닝합니다. 우리는 효율성-정확도 트레이드오프 (efficiency-accuracy trade-offs)의 체계적인 탐색을 가능하게 하는 통합된 훈련 및 평가 프레임워크 내에서 이 접근 방식을 구현합니다. 여러 벤치마크 데이터셋에 걸친 실험 결과, 모델 연산자의 최대 70%를 프루닝하더라도 대부분의 경우 원본 모델의 성능을 유지하면서 추론 지연 시간을 실질적으로 줄일 수 있음을 보여줍니다. 이러한 결과는 구조적 연산자 프루닝이 SSM의 효율성을 향상시키기 위한 효과적이고 이전에는 탐구되지 않았던 전략임을 입증하며, 실제 자원 제한적 시나리오에서의 배포를 용이하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기