arXiv논문2026. 05. 04. 01:09

Voxel을 활용한 voxel 기반 LLM 추론을 위한 3D 스택형 AI 칩 아키텍처 효율성 탐구

요약

본 기술 기사는 메모리 병목 현상을 극복하기 위한 3D 스택형 AI 칩 아키텍처의 효율성을 탐구하는 내용을 다룹니다. 저자들은 LLM 추론에 특화된 빠르고 컴파일러 인식(end-to-end) 시뮬레이션 프레임워크인 Voxel을 개발했습니다. Voxel은 소프트웨어와 하드웨어를 통합적으로 분석하여, 컴퓨팅 패러다임부터 메모리 매핑 전략, NoC 토폴로지, 에너지 제약 조건에 이르기까지 다양한 요소들이 3D 스택형 AI 칩의 최종 효율성에 어떻게 기여하는지 심층적으로 보여줍니다.

핵심 포인트

3D 스택형 아키텍처는 TSV를 활용하여 컴퓨팅과 메모리 간 초고속 대역폭을 제공함으로써 기존 AI 칩의 메모리 병목 현상을 해결할 잠재력을 가집니다.
개발된 Voxel 프레임워크는 LLM 추론에 최적화되었으며, ML 컴파일러가 모델 실행 계획을 사용자 정의할 수 있는 프로그래밍 인터페이스를 제공합니다.
Voxel 시뮬레이션을 통해 3D 스택형 AI 칩의 효율성은 단순히 개별 요소의 성능이 아닌, 타일-코어 매핑 및 텐서-뱅크 매핑과 같은 요소들의 '협력적 기능'에 크게 의존함을 입증했습니다.
분석된 주요 변수들로는 NoC 토폴로지, DRAM/SRAM 용량, 에너지/열 제약 조건 등이 있으며, 이들이 엔드투엔드 효율성에 미치는 상관관계를 면밀히 조사했습니다.

AI 칩의 잘 알려진 메모리 병목 현상을 극복하기 위해 고밀도 through-silicon vias (TSV) 핀을 사용하는 고급 패키징 기술을 적용한 3D 스택형 아키텍처가 유망한 해결책으로 입증되었습니다. 3D 스택형 AI 칩은 분산 방식으로 많은 AI 코어 위에 수많은 DRAM 뱅크를 쌓아 컴퓨팅과 메모리 간 초고속 메모리 대역폭을 가능하게 합니다. 그러나 그 고유한 분산 특성 때문에 3D 스택형 AI 칩의 효율성을 탐구하는 것은 쉽지 않습니다. 우리는 상위의 컴퓨팅 패러다임부터 머신러닝 (ML) 컴파일러 최적화, 그리고 기반 하드웨어 아키텍처에 이르기까지 여러 가지 얽힌 요인들을 신중하게 고려해야 합니다. 본 논문에서는 대형 언어 모델 (LLM) 추론을 위한 3D 스택형 AI 칩의 효율성을 탐구하는 데 도움이 되는 빠르고 컴파일러 인식(end-to-end) 시뮬레이션 프레임워크인 Voxel 을 개발합니다. Voxel 은 ML 컴파일러가 모델 실행 계획을 사용자 정의할 수 있는 프로그래밍 인터페이스를 채택함으로써 소프트웨어/하드웨어 공동 탐구를 가능하게 합니다. 실제 실리콘에서 에뮬레이터를 통해 Voxel 의 결과를 검증한 후, 3D 스택형 AI 칩의 다양한 측면, 즉 최첨단 컴퓨팅 패러다임, 타일-코어 매핑(tile-to-core mapping), 텐서-뱅크 매핑(tensor-to-bank mapping), NoC 토폴로지와 링크 대역폭, DRAM 뱅크 대역폭, 코어당 SRAM 용량, 그리고 에너지/열 제약 조건에 대한 영향과 상관관계를 면밀히 조사했습니다. 우리의 발견은 3D 스택형 AI 칩의 엔드투엔드 효율성이 이러한 요소들의 협력적 기능뿐만 아니라 타일에서 AI 코어 및 DRAM 뱅크로의 매핑에 크게 의존함을 보여줍니다. 우리는 이 발견을 논문을 통해 보고 있으며, 이것이 3D 스택형 AI 칩 생태계의 발전에 빛을 비추길 기대합니다. 우리는 Voxel 과 연구 결과를 공개 연구를 위해 오픈 소스화할 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Voxel을 활용한 voxel 기반 LLM 추론을 위한 3D 스택형 AI 칩 아키텍처 효율성 탐구

요약

핵심 포인트

댓글