SHIFT: 통신 인지형 칩렛 기반 시스템을 위한 동적 연산 재배치 프레임워크
요약
칩렛 기반 이기종 시스템의 통신 복잡성을 해결하기 위해 연산 노드와 데이터를 함께 재배치하는 SHIFT 프레임워크를 제안합니다. ML 지원 정책과 다층 라우팅을 통해 지연 시간과 에너지 효율을 획기적으로 개선하며, 특히 LLM 워크로드에서 탁월한 성능 향상을 입증했습니다.
핵심 포인트
- 연산 노드 컨텍스트와 데이터를 함께 이동시키는 토폴로지 불가지론적 접근 방식 제안
- 칩렛 아키텍처 내 지능형 유틸리티 칩렛을 통한 다층 라우팅 및 적응형 스케줄링 구현
- LLM 워크로드 테스트 결과 실행 시간 4.9배, 처리량 5.9배 개선 확인
- 에너지 효율성 및 단위 면적당 전력 소모 감소를 통한 시스템 최적화
대규모 이기종 시스템의 통신 복잡성이 증가함에 따라, 통신 인지형 (communication-aware) 워크로드 배치 및 라우팅 최적화를 위한 런타임 방법론의 필요성이 높아지고 있습니다. 본 논문에서는 기존의 네트워크 온 칩 (networks-on-chip) 방식처럼 데이터만을 이동시키는 대신, 연산 노드 컨텍스트 (compute node context)와 데이터를 더 적절한 위치의 노드로 전송하는 새로운 토폴로지 불가지론적 (topology-agnostic) 접근 방식인 SHIFT를 제안하여 이러한 통신 제한 문제를 해결합니다. 제안된 전략은 이기종 워크로드를 위한 다중 대역폭 도메인 (multiple bandwidth-domains)을 특징으로 하는 미세 피치 통합 플랫폼을 활용하는 칩렛 (chiplet) 기반 아키텍처에서 평가됩니다. 제안된 아키텍처는 기능 또는 메모리 칩렛과 라우팅 및 연산 재배치를 위한 지능형 노드 역할을 하는 유틸리티 칩렛 간의 다층 라우팅 (multi-layered routing)을 채택합니다. 적응형 스케줄링 및 라우팅은 대규모 시스템을 위해 수정된 최단 경로 알고리즘을 사용하며, 적응성을 향상시키기 위해 트래픽 상태를 추론하는 경량 ML 지원 정책 (ML-assisted policy)으로 보완됩니다. 성능 기준점 (performance baseline)을 설정하기 위해, 초기 평가는 무작위 명령어 벡터와 데이터 패턴을 사용하여 SHIFT의 기본 역량을 평가합니다. 시뮬레이션 결과, 구성에 따라 총 시도 횟수 대비 75.2%에서 97.9% 사이의 성공적인 재배치를 보여주었으며, 평균 지연 시간 (latency)은 16.4%~62.5%, 최대 76.8% 개선되었습니다. 또한, 처리량 (throughput)은 최대 12.5배 향상되었고, 단위 면적당 전력 소모는 약 8% 감소했으며, 비트당 에너지 (energy-per-bit)는 최대 58.3% 감소하였고, 성능은 18% 향상되었습니다. 높은 로직 및 데이터 밀도 하에서의 효율성을 평가하기 위해, 본 프레임워크는 표준 LLM 워크로드에서 테스트되었습니다. 결과적으로 실행 시간, 처리량, 에너지 효율성 측면에서 각각 평균 4.9배, 5.9배, 1.8배의 개선을 보여주었으며, 이는 최첨단 웨이퍼 스케일 (wafer-scale) LLM 서비스를 능가하며 대규모 플랫폼 및 애플리케이션과의 호환성을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기