arXiv논문2026. 05. 01. 13:14

RCW-CIM: 읽기 - 계산/쓰기를 기반으로 한 디지털 CIM 기반 대규모 언어 모델 가속기

요약

본 논문은 대규모 언어 모델(LLM) 가속화를 위해 읽기-계산/쓰기(RCW) 아키텍처를 기반으로 한 디지털 CIM(DCIM)을 제안합니다. 이 RCW-CIM은 기존 CIM의 가중치 업데이트 지연 시간 문제를 해결하고, 비선형 연산자 융합 및 WS-OCS 데이터플로우를 결합하여 LLM 추론의 전반적인 지연 시간을 크게 줄였습니다. 실험 결과, Llama2-7B 모델에서 디코딩 단계는 21.59%, 프리필 단계는 49.76%까지 지연 시간이 감소했으며, 높은 에너지 효율성(42.3 TOPS/W)을 입증했습니다.

핵심 포인트

LLM 가속화를 위해 데이터 전송 최소화가 가능한 디지털 CIM (DCIM) 아키텍처를 활용함.
제안된 RCW-CIM은 기존 CIM의 주요 문제점인 '가중치 업데이트 지연 시간'을 효과적으로 완화하는 새로운 접근 방식을 제시함.
비선형 연산자 융합(Nonlinear Operator Fusion)과 WS-OCS 데이터플로우를 결합하여 추론 성능을 극대화함.
실제 Llama2-7B 모델 테스트에서 디코딩 및 프리필 단계 모두에서 상당한 지연 시간 감소율을 달성하며 높은 효율성을 입증함.

디지털 컴퓨팅 인 메모리 (DCIM) 는 외부 DRAM 과 칩 내 가속기 간 데이터 전송을 최소화하면서도 높은 정밀도를 유지하여 우수한 정확도를 확보함으로써, 대규모 언어 모델 (LLM) 가속화를 위한 유망한 해결책으로 부상했습니다. 그러나 기존 CIM 아키텍처는 종종 가중치 업데이트 지연 시간을 간과하는 경향이 있으며, 이는 LLM 가중치가 단일 CIM 매크로 용량보다 훨씬 크기 때문에 특히 중요합니다. 이 문제를 해결하기 위해 본 논문은 가중치 업데이트 지연 시간을 효과적으로 최소화하는 읽기 - 계산/쓰기 (RCW) 아키텍처를 제안하며, 의존성 유도 지연 시간을 추가로 완화하기 위해 비선형 연산자 융합을 함께 제시합니다. 제안된 RCW 는 Llama2-7B 모델에서 디코딩 컴퓨팅 지연 시간을 21.59% 줄였습니다. 또한, 효율적인 부분 누적과 그룹 기반 근사화를 통해 비선형 연산자 융합 메커니즘은 지연 시간을 69.17% 감소시켰습니다. 더 나아가, 프리필 (prefill) 단계에서 외부 DRAM 액세스와 내부 CIM 가중치 업데이트를 각각 51.6% 와 87.6% 줄이기 위해 가중치 정지 및 출력 열 정지 (WS-OCS) 데이터플로우가 도입되었습니다. 이는 1024 토큰의 프리필 단계에서 전체 지연 시간을 49.76% 감소시켰습니다. TSMC 22 nm CMOS 기술로 제작되었으며 100 MHz 에서 동작하는 제안된 RCW-CIM 은 3.28 TOPS 와 42.3 TOPS/W 의 성능을 발휘하여, 듀얼 DDR5-6400 메모리를 사용하는 INT4 가중치 Llama2 모델에서 4.2 ms 의 프리필 지연 시간과 초당 26.87 개의 디코딩 토큰을 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

RCW-CIM: 읽기 - 계산/쓰기를 기반으로 한 디지털 CIM 기반 대규모 언어 모델 가속기

요약

핵심 포인트

댓글