arXiv중요논문2026. 04. 24. 02:48

CIMple: SRAM 기반 CIM으로 어텐션 가속화하는 방법

요약

LLM을 엣지 디바이스에 배포할 때 발생하는 자원 제약 문제를 해결하기 위해, 본 논문은 메모리 내 연산(Compute-in-Memory, CIM) 기반의 어텐션 가속기 'CIMple'을 제안합니다. 기존 CIM 구조가 정적 MAC 연산만 지원하여 비선형 연산 구현에 한계가 있었던 문제를 해결하고자 했습니다. CIMple은 8비트 병렬 가중치 피딩과 LUT(Look-Up Table) 기반의 고정 소수점 분할 소프트맥스(split softmax)를 도입하여, 트랜스포머 모델의 핵심인 셀프 어텐션 연산을 효율적으로 처리합니다. 28nm

핵심 포인트

CIMple은 8비트 병렬 가중치 피딩을 사용하는 이중 은행식 CIM 기반의 완전 디지털 셀프 어텐션 가속기입니다.
LUT(Look-Up Table) 기반 고정 소수점 구현 방식을 채택하여, 정확도 손실을 최소화하면서 지연 시간(latency)을 줄였습니다.
28nm 공정에 구현된 32kb CIM 기반 셀프 어텐션 가속기는 INT8 정밀도로 0.85V에서 26.1 TOPS/W 및 1.2V에서 2.31 TOPS/mm²의 성능을 달성했습니다.

거대 언어 모델(LLM)은 LLaMA나 DeepSeek과 같이 트랜스포머 아키텍처를 기반으로 하며, 이는 자연어 처리(NLP) 분야에서 최고 수준의 성능을 달성하는 표준 모델로 자리 잡았습니다. 최근 LLM을 엣지 디바이스에 배포하려는 관심이 높아지고 있지만, 크기가 작아진 모델들조차 여전히 수십억 개의 파라미터를 포함하고 있어 자원 제약이 큰 엣지 환경에서 심각한 문제를 야기합니다.

이러한 문제에 대한 유망한 해결책 중 하나가 바로 메모리 내 연산(Compute-in-Memory, CIM) 아키텍처입니다. CIM은 계산 로직을 메모리에 직접 통합하여 데이터 이동(data movement)을 줄임으로써 전력 효율성을 높이는 방식입니다.

하지만 기존의 CIM 구조는 주로 정적인 곱셈-누적(Multiply-Accumulate, MAC) 연산만 지원하는 경우가 많아, 트랜스포머 모델에 필수적인 비선형 연산이나 다양한 유형의 연산을 구현하는 데 한계가 있었습니다. 본 논문은 이러한 제약을 극복하기 위해, 셀프 어텐션(self-attention)을 위한 완전 디지털 표준 셀 SRAM 기반 CIM 가속기인 'CIMple'을 제안합니다.

CIMple의 핵심 기여는 다음과 같습니다:

이중 은행식 아키텍처: 8비트 병렬 가중치 피딩(weight feeding) 방식을 사용하는 이중 은행식 CIM 기반 완전 디지털 셀프 어텐션 가속기를 구현했습니다.
LUT 기반 소프트맥스: 트랜스포머 모델의 핵심인 소프트맥스(softmax) 연산을 위해, 정확도 손실을 최소화하면서 지연 시간을 줄일 수 있는 LUT(Look-Up Table) 기반 고정 소수점(fixed-point) 구현 방식을 채택했습니다.
성능 입증: 28nm 공정에 구현된 32kb CIM 기반 셀프 어텐션 가속기의 성능을 평가했습니다. 이 가속기는 INT8 정밀도에서 0.85V 작동 시 26.1 TOPS/W, 그리고 1.2V 작동 시 2.31 TOPS/mm²의 뛰어난 효율성을 달성하며 그 효용성을 입증했습니다.

CIMple은 LLM을 자원 제약이 심한 엣지 디바이스에 효과적으로 배포할 수 있게 하는 실질적인 하드웨어 솔루션을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

CIMple: SRAM 기반 CIM으로 어텐션 가속화하는 방법

요약

핵심 포인트

댓글