COSM: 모바일 기기에서의 동시 PIM 및 CPU 실행을 위한 협력적 스케줄링 프레임워크
요약
모바일 기기에서 PIM(Processing-in-Memory)과 CPU의 동시 실행을 최적화하는 협력적 스케줄링 프레임워크 COSM을 제안합니다. CPU의 메모리 액세스 유휴 시간을 활용하여 PIM 명령을 통합함으로써, CPU 성능 저하를 최소화하면서 PIM 처리량을 대폭 향상시킵니다.
핵심 포인트
- PIM과 CPU의 공유 메모리 내 동시 작동을 위한 COSM 프레임워크 소개
- 저간섭 PIM 제어 인터페이스를 통한 CPU 메모리 액세스 방해 최소화
- 유휴 시간 인식(idleness-aware) 스케줄링으로 PIM 명령 통합
- CPU 성능 손실 2.0% 미만 유지 및 PIM 처리량 최대 2.8배 향상
온디바이스 대규모 언어 모델 (LLMs)의 발전은 개인정보 보호와 빠른 응답 시간에 대한 필요성에 의해 추진되고 있습니다. 모바일 기기에서의 에너지 집약적인 데이터 전송은 프로세싱 인 메모리 (Processing-in-Memory, PIM)를 효과적인 솔루션으로 만듭니다. 엄격한 DRAM 비용 제약, 회로 기판상의 제한된 물리적 점유 면적, 그리고 애플리케이션과 LLMs 간의 상호작용으로 인해, CPU와 PIM이 공유 메모리 공간 내에서 동시에 작동하는 것이 필수적입니다. 그러나 뱅크 충돌 (bank conflicts) 및 버스 혼잡 (bus congestion)과 같은 과제가 발생할 수 있으며, 이는 잠재적으로 PIM의 성능 및 에너지 이점을 감소시킬 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 모바일 플랫폼에서 PIM과 CPU 태스크의 동시 작동을 용이하도록 설계된 협력적 스케줄링 프레임워크인 COSM을 소개합니다. 우리의 주요 혁신 사항은 다음과 같습니다: 1) CPU 메모리 액세스를 방해하지 않으면서 최대 수의 PIM 명령을 생성하는 저간섭 PIM 제어 인터페이스; 2) CPU의 액세스 시퀀스 내에서 사용 가능한 유휴 시간 창 (idle time windows)에 PIM 명령을 통합하는 유휴 시간 인식 (idleness-aware) 스케줄링 방법입니다. COSM은 CPU로부터 PIM 실행 지연 시간 (latency)을 숨길 뿐만 아니라, PIM 실행을 데이터 전송과 중첩(overlap)시킵니다. 모바일 애플리케이션 및 연산 집약적 커널 (compute-intensive kernels)을 포함한 LLMs와 모바일 워크로드의 동시 실행에 대한 실험 결과, COSM은 CPU 성능 손실을 2.0% 미만으로 유지하면서 베이스라인 스케줄링 방법 대비 PIM 처리량 (throughput)을 최대 2.8배 향상시킴을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기