arXiv논문2026. 04. 28. 00:30

포커스 세션: 멀티모달 파운데이션 모델 가속화를 위한 하드웨어 및 소프트웨어 기술

요약

본 연구는 멀티모달 파운데이션 모델(MFMs)을 가속화하기 위한 하드웨어 및 소프트웨어 공동 설계 방법론을 제시한다. 이 방법론은 트랜스포머 블록에 대한 양자화, 가지치기 등의 압축 기법과 더불어, 모델 캐스케이드 및 최적화된 데이터플로우를 결합하여 계산 및 메모리 요구사항을 획기적으로 줄인다. 궁극적으로 전용 하드웨어 가속기를 활용하고 다양한 워크로드를 공동 최적화함으로써 MFM의 효율적인 배포와 에너지 효율성을 달성하는 것을 목표로 한다.

핵심 포인트

MFMs 가속화를 위한 다층적 방법론 제시 (하드웨어/소프트웨어 공동 설계)
계층 인식 혼합 정밀도 양자화 및 구조적 가지치기를 통한 모델 압축 수행
모델 캐스케이드와 경량 자체 테스트를 활용하여 대형 모델로의 효율적인 에스컬레이션 관리
시퀀스 길이, 해상도 등 다양한 파라미터에 대한 공동 최적화를 통해 연산 효율 극대화
전용 하드웨어 가속기 및 메모리 효율적인 데이터플로우 설계를 통한 온칩 성능 최적화

본 연구는 멀티모달 파운데이션 모델 (MFMs) 을 효율적으로 가속화하기 위한 다층적 방법론을 제시합니다. 이는 트랜스포머 블록의 하드웨어 및 소프트웨어 공동 설계와 계산 요구사항 및 메모리 요구사항을 줄이는 최적화 파이프라인을 결합합니다. 모델 개발 단계에서는 도메인별 적응을 위한 미세 조정 (fine-tuning) 을 통해 성능 향상을 적용합니다. 본 방법론은 또한 MFMs 를 최적화하기 위한 하드웨어 및 소프트웨어 기술을 추가로 포함합니다. 구체적으로, 트랜스포머 블록 및 MLP 채널에 대한 계층 인식 혼합 정밀도 양자화 (hierarchy-aware mixed-precision quantization) 와 구조적 가지치기 (structural pruning) 를 사용하여 MFM 압축을 수행합니다. 또한, 작은 모델에서 큰 모델로 쿼리를 라우팅하는 모델 캐스케이드 (model cascading) 와 경량 자체 테스트 (lightweight self-tests) 를 사용하여 더 큰 모델로 에스컬레이션할 시점을 결정하고, 시퀀스 길이, 시각적 해상도 및 스트라이드, 그래프 레벨 오퍼레이터 퓨전 (graph-level operator fusion) 의 공동 최적화를 통해 연산을 최적화합니다. 모델을 효율적으로 실행하기 위해 메모리 효율적인 주의력 메커니즘 (memory-efficient attention) 과 함께 기본 하드웨어 아키텍처에 기반한 처리 데이터플로우 (processing dataflow) 를 최적화하여 온칩 대역폭 및 지연 시간 예산을 충족시킵니다. 이를 지원하기 위해 트랜스포머 워크로드를 위한 전용 하드웨어 가속기를 사용하며, 이는 전문가 설계 또는 LLM 보조 설계 방식을 통해 개발할 수 있습니다. 제안된 방법론의 효과성을 의료용 MFM 과 코드 생성 작업에서 입증하고, 에너지 효율적인 스파이킹 MFM 으로 확장하는 내용을 결론으로 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

포커스 세션: 멀티모달 파운데이션 모델 가속화를 위한 하드웨어 및 소프트웨어 기술

요약

핵심 포인트

댓글