arXiv논문2026. 06. 03. 11:28

아날로그 인메모리 컴퓨팅 (AIMC) 가속기를 위한 이기종 매핑: 통합 워크플로우

요약

아날로그 인메모리 컴퓨팅(AIMC) 가속기의 효율성을 높이기 위한 이기종 매핑 통합 워크플로우를 제안합니다. DNN 워크로드를 아날로그 타일과 디지털 장치에 최적으로 분할하는 4단계 프로세스를 구축하고 GPT-2 모델을 통해 검증했습니다.

핵심 포인트

AIMC 가속기의 정밀도 한계를 극복하기 위한 이기종 아키텍처 활용
매핑 입도와 최적화 전략을 포함한 4단계 통합 워크플로우 제안
GPT-2 적용 결과, 특정 프로젝션의 정밀도 민감도가 매우 높음 확인
신뢰할 수 있는 배포를 위해 프로젝션 수준의 매핑 및 선택적 디지털 실행 필요

아날로그 인메모리 컴퓨팅 (Analog In-Memory Computing, AIMC) 가속기는 메모리 어레이 내에서 직접 행렬-벡터 곱셈 (matrix-vector multiplications)을 수행하여, 데이터 이동을 줄이고 DNN 추론 효율성을 향상시킵니다. 이들의 제한된 유효 정밀도 (effective precision)는 아날로그 연산 타일 (analog compute tiles)과 디지털 처리 장치 (digital processing units)를 결합하는 이기종 아키텍처 (heterogeneous architectures)의 필요성을 자극합니다. 본 논문은 매핑 입도 (mapping granularity), 최적화 전략 (optimization strategy), 모델 지원 (model support)에 따라 이러한 리소스 전반에 걸쳐 DNN 워크로드를 분할하는 기존 방법들을 분류하고, 이를 통합된 4단계 워크플로우 (four-stage workflow)로 추출합니다. 기존 방법들이 아직 다루지 않은 모델 클래스에 대해 이 워크플로우를 입증하기 위해, 우리는 워크플로우의 처음 두 단계를 GPT-2에 적용하여 디코더 전용 트랜스포머 (decoder-only transformer)에 대한 최초의 AIMC 특화 정밀도 민감도 프로필 (precision sensitivity profile)을 생성합니다. 민감도는 49개의 프로젝션 (projections) 중 4개에 의해 지배되며, 첫 번째 디코더 블록의 어텐션 출력 (attention output)이 한 자릿수(an order of magnitude) 차이로 압도적인 영향을 미칩니다. 이는 AIMC 하드웨어에서 신뢰할 수 있는 디코더-트랜스포머 배포를 위해 프로젝션 수준의 매핑 (projection-level mapping)과 초기 블록 및 출력 지향 프로젝션의 선택적 디지털 실행 (selective digital execution)이 중요하다는 것을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

아날로그 인메모리 컴퓨팅 (AIMC) 가속기를 위한 이기종 매핑: 통합 워크플로우

요약

핵심 포인트

댓글