본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 28. 00:30

포커스 세션: 멀티모달 파운데이션 모델 가속화를 위한 하드웨어 및 소프트웨어 기술

요약

본 연구는 멀티모달 파운데이션 모델(MFMs)을 가속화하기 위한 하드웨어 및 소프트웨어 공동 설계 방법론을 제시한다. 이 방법론은 트랜스포머 블록에 대한 양자화, 가지치기 등의 압축 기법과 더불어, 모델 캐스케이드 및 최적화된 데이터플로우를 결합하여 계산 및 메모리 요구사항을 획기적으로 줄인다. 궁극적으로 전용 하드웨어 가속기를 활용하고 다양한 워크로드를 공동 최적화함으로써 MFM의 효율적인 배포와 에너지 효율성을 달성하는 것을 목표로 한다.

핵심 포인트

  • MFMs 가속화를 위한 다층적 방법론 제시 (하드웨어/소프트웨어 공동 설계)
  • 계층 인식 혼합 정밀도 양자화 및 구조적 가지치기를 통한 모델 압축 수행
  • 모델 캐스케이드와 경량 자체 테스트를 활용하여 대형 모델로의 효율적인 에스컬레이션 관리
  • 시퀀스 길이, 해상도 등 다양한 파라미터에 대한 공동 최적화를 통해 연산 효율 극대화
  • 전용 하드웨어 가속기 및 메모리 효율적인 데이터플로우 설계를 통한 온칩 성능 최적화

본 연구는 멀티모달 파운데이션 모델 (MFMs) 을 효율적으로 가속화하기 위한 다층적 방법론을 제시합니다. 이는 트랜스포머 블록의 하드웨어 및 소프트웨어 공동 설계와 계산 요구사항 및 메모리 요구사항을 줄이는 최적화 파이프라인을 결합합니다. 모델 개발 단계에서는 도메인별 적응을 위한 미세 조정 (fine-tuning) 을 통해 성능 향상을 적용합니다. 본 방법론은 또한 MFMs 를 최적화하기 위한 하드웨어 및 소프트웨어 기술을 추가로 포함합니다. 구체적으로, 트랜스포머 블록 및 MLP 채널에 대한 계층 인식 혼합 정밀도 양자화 (hierarchy-aware mixed-precision quantization) 와 구조적 가지치기 (structural pruning) 를 사용하여 MFM 압축을 수행합니다. 또한, 작은 모델에서 큰 모델로 쿼리를 라우팅하는 모델 캐스케이드 (model cascading) 와 경량 자체 테스트 (lightweight self-tests) 를 사용하여 더 큰 모델로 에스컬레이션할 시점을 결정하고, 시퀀스 길이, 시각적 해상도 및 스트라이드, 그래프 레벨 오퍼레이터 퓨전 (graph-level operator fusion) 의 공동 최적화를 통해 연산을 최적화합니다. 모델을 효율적으로 실행하기 위해 메모리 효율적인 주의력 메커니즘 (memory-efficient attention) 과 함께 기본 하드웨어 아키텍처에 기반한 처리 데이터플로우 (processing dataflow) 를 최적화하여 온칩 대역폭 및 지연 시간 예산을 충족시킵니다. 이를 지원하기 위해 트랜스포머 워크로드를 위한 전용 하드웨어 가속기를 사용하며, 이는 전문가 설계 또는 LLM 보조 설계 방식을 통해 개발할 수 있습니다. 제안된 방법론의 효과성을 의료용 MFM 과 코드 생성 작업에서 입증하고, 에너지 효율적인 스파이킹 MFM 으로 확장하는 내용을 결론으로 제시합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0