정밀한 End-to-End 시뮬레이션 가속화: 지연 시간에 민감한 Many-core 시스템 모델링
요약
본 논문은 대규모 LLM 워크로드와 Many-core 가속기의 복잡성 증가로 인해 발생하는 RTL 시뮬레이션의 느린 속도 문제를 해결하는 End-to-End 모델링 접근 방식을 제시합니다. 이 방법론은 TeraNoC와 같은 초대형 시스템을 대상으로 하며, 필수적이지 않은 하드웨어 세부 사항을 추상화하면서 지연 시간에 민감한 스크래치패드 메모리(SPM)의 타이밍 동작을 정확하게 포착할 수 있습니다. 그 결과, 기존 사이클 정확도 RTL 모델 대비 최대 115배 빠른 시뮬레이션 속도를 달성하며, 상세한 프로파일링 및 설계 최적화 기회를 제공합니다.
핵심 포인트
- LLM 워크로드의 증가로 인해 Many-core 시스템에서 SPM과 정밀한 데이터 이동 모델링이 중요해지고 있습니다.
- 제안된 End-to-End 모델은 대규모(예: 1024 코어) Many-core 아키텍처를 위한 빠르고 정확한 시뮬레이션 환경을 제공합니다.
- 기존 사이클 정확도 RTL 골든 모델 대비 최대 115배 빠른 속도를 달성하면서, 오류율은 7% 미만으로 유지됩니다.
- 단순히 속도 향상에 그치지 않고, 상세한 프로파일링 기능을 통해 인터커넥트 병목 현상 최적화 및 공간 탐색을 지원합니다.
최신 대규모 언어 모델(LLM) 워크로드는 병렬 컴퓨팅 능력과 온칩 메모리 용량에 대한 요구를 증가시키고 있으며, 동시에 세밀한 데이터 이동 및 동기화를 강조합니다. 이러한 추세는 확장 가능한 컴퓨팅과 예측 가능하고 명시적으로 관리되는 데이터 접근을 위해 스크래치패드 메모리(SPM)가 긴밀하게 결합된 Many-core 가속기를 탐색하고 설계하도록 동기를 부여합니다. 그러나 이러한 아키텍처 변화는 두 가지 과제를 제기합니다: 시스템 복잡도가 증가함에 따라 사이클 정확도 레지스터 전송 수준(RTL) 시뮬레이션이 지나치게 느려지고, 성능 추정은 지연 시간에 민감한 상호 연결 동작의 정밀한 모델링을 필요로 합니다. 본 논문은 TeraNoC와 같이 1024개의 코어 및 4MiB의 전역 공유 L1 SPM과 같은 대규모 인스턴스를 목표로 하는, 지연 시간에 민감한 Many-core 아키텍처를 위한 빠르면서도 정확한 End-to-End 모델링 접근 방식을 제시합니다. 이 접근 방식은 필수적이지 않은 하드웨어 세부 사항을 추상화하는 동시에 여러 상호 연결 규모에 걸친 지연 시간에 민감한 SPM 접근의 타이밍 동작을 포착합니다. 다양한 벤치마크 전반에 걸쳐, 이 모델은 오류율이 7% 미만인 사이클 정확도 RTL 골든 모델을 추적하면서 최대 115배 빠른 시뮬레이션을 제공합니다. 또한 이 프레임워크는 처리 요소(processing elements)와 상호 연결 전반에 걸친 상세한 프로파일링을 제공하여 효율적인 End-to-End 소프트웨어 개발 및 하드웨어 설계 탐색을 가능하게 합니다. 두 가지 사례 연구가 그 실용성을 입증합니다: FlashAttention-2의 인터커넥트 정지(stalls) 및 동기화 오버헤드를 줄이기 위한 프로파일링 기반 최적화, 그리고 des
네트워크 온 칩(NoC) 라우터의 트래픽 불균형을 완화하고 처리량(throughput)을 개선하기 위한 재매핑(remapping)에 대한 공간 탐색(ign space exploration)입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기