Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AR 432건필터 해제
TetrisG-SDK: 적응형 윈도우 및 그룹별 합성곱을 활용한 효율적인 컨볼루션 레이어 매핑과 빠른 인메모리 컴퓨팅
TetrisG-SDK는 적응형 윈도우와 그룹별 합성곱을 활용하여 Compute-in-Memory (CIM) 하드웨어에서 컨볼루션 레이어 매핑의 효율성을 극대화하는 새로운 프레임워크입니다. 기존 방법론이 단일 CIM 매크오에만 초점을 맞춘 한계를 넘어, TetrisG-SDK는 여러 매크오 간 병렬성을 활용하여 컴퓨팅 지연 시간을 획기적으로 줄입니다. 이 프레임워크는 검증된 시뮬레이터를 통해 시스템 수준에서 속도 향상뿐 아니라 에너지 및 면적 효율성까지 입증하며, 다양한 CNN 모델에 걸쳐 우수한 성능을 보여주었습니다.
AMMA: 저지연 1M 컨텍스트 어텐션 서빙을 위한 멀티 칩렛 메모리 중심 아키텍처
본 기술 기사는 LLM 서빙의 주요 병목 현상인 메모리 바운드 어텐션 지연 문제를 해결하기 위해 'AMMA(Attention Memory-centric Multi-chiplet Architecture)'라는 새로운 아키텍처를 제안합니다. 기존 시스템이 GPU 컴퓨팅에 초점을 맞추어 메모리 중심 워크로드와 불일치했던 점을 개선하고자, AMMA는 GPU 컴퓨팅 다이를 HBM-PNM 큐브로 대체하여 메모리 대역폭을 극대화했습니다. 이를 통해 어텐션 지연 시간을 획기적으로 줄이고 에너지 효율성을 높여, 장문 컨텍스트(1M 토큰)를 처리하는 LLM 서빙에 최적화된 솔루션을 제공합니다.
MPS 와 MIG 기술을 활용한 GPU 공간 공동 실행에 대한 종합 평가
본 기사는 GPU 자원 활용도를 높이기 위한 공간 공유 기술인 NVIDIA의 MPS와 MIG를 비교 평가합니다. 연구 결과에 따르면, MPS는 프로비저닝 옵션을 통해 최대 30%의 성능 향상과 에너지 절감을 제공할 수 있지만, 메모리 경쟁 상황에서는 심각한 성능 저하(약 30% 악화)를 겪을 수 있습니다. 반면, MIG는 완전한 하드웨어 격리를 통해 일관된 개선을 보장하지만, 높은 오버헤드와 유연성 부족으로 인해 특정 시나리오에서 성능 저하가 발생할 수 있다는 트레이드오프를 제시합니다.
RCW-CIM: 읽기 - 계산/쓰기를 기반으로 한 디지털 CIM 기반 대규모 언어 모델 가속기
본 논문은 대규모 언어 모델(LLM) 가속화를 위해 읽기-계산/쓰기(RCW) 아키텍처를 기반으로 한 디지털 CIM(DCIM)을 제안합니다. 이 RCW-CIM은 기존 CIM의 가중치 업데이트 지연 시간 문제를 해결하고, 비선형 연산자 융합 및 WS-OCS 데이터플로우를 결합하여 LLM 추론의 전반적인 지연 시간을 크게 줄였습니다. 실험 결과, Llama2-7B 모델에서 디코딩 단계는 21.59%, 프리필 단계는 49.76%까지 지연 시간이 감소했으며, 높은 에너지 효율성(42.3 TOPS/W)을 입증했습니다.
VitaLLM: 의존성 인식 스케줄링을 갖춘 다목적 초소형 3가치 LLM 가속기
VitaLLM은 자원 제약이 있는 엣지 디바이스에서 대규모 언어 모델(LLMs)을 효율적으로 구동하기 위한 전용 하드웨어-소프트웨어 공동 설계 가속기입니다. 이 아키텍처는 3가치 양자화 LLM의 계산 및 대역폭 병목 현상을 해결하기 위해 TINT-Core와 BoothFlex-Core를 결합한 이종 코어 전략을 사용합니다. 특히, 의존성 인식 스케줄링(Dependency-Aware Scheduling)과 Key-Value 캐시 최적화 메커니즘을 도입하여 전력 효율성과 처리량을 극대화했습니다.
HAVEN: LLMs 를 활용한 UVM 테스트벤치 합성용 하이브리드 자동 검증 엔진
HAVEN은 대형 언어 모델(LLMs)의 한계를 극복하고 UVM 테스트벤치를 합성하기 위해 제안된 하이브리드 자동 검증 엔진입니다. 기존 LLM이 HDL 코드 생성에 어려움을 겪는 문제를 해결하기 위해, HAVEN은 설계 사양 분석을 위한 LLM 에이전트와 사전 정의된 템플릿 및 프로토콜 인식 DSL(Domain-Specific Language)을 결합합니다. 이를 통해 UVM 구성 요소와 시퀀스를 높은 정확도와 커버리지로 자동 생성하며, 기존 시스템 대비 최신 상태(SOTA)의 성능을 입증했습니다.
Affinity Tailor: 대규모 환경에서의 동적 로컬리티 인식 스케줄링
Affinity Tailor는 대규모 멀티코어 시스템에서 워크로드의 공간적 로컬리티를 보존하는 새로운 커널 스케줄링 시스템입니다. 기존 스케줄러들이 CPU 자원을 균등하게 분배하여 로드 밸런싱을 수행할 때, 이는 캐시 및 예측기 재사용성을 떨어뜨리고 코어 간 간섭을 증가시키는 문제를 야기합니다. Affinity Tailor는 사용자 공간 컨트롤러가 워크로드의 수요를 추정하고 최적의 CPU 세트를 '애피니티 힌트'로 할당하며, 커널은 이 힌트를 사용하여 로컬리티를 유지하면서도 유연하게 자원을 활용할 수 있도록 합니다.
CuLifter: GPU 바이너리를 타입화된 IR 로 변환하기
CuLifter는 GPU 컴파일러가 타입 정보를 제거하는 문제에 대응하여 개발된 SASS-to-LLVM IR 리프팅 프레임워크입니다. 이 도구는 제약 조건 전파와 충돌 감지 같은 기술을 사용하여 타입 없는 레지스터 파일에서 원래의 데이터 타입을 복원하고, 명시적인 제어 흐름 재구성 및 다중 명령어 패턴 집계를 수행합니다. 8개의 광범위한 벤치마크 스위트에서 CuLifter는 높은 성공률(99.98%)로 유효한 LLVM IR을 생성하며, 타입 복원 단계가 리프팅의 핵심임을 입증했습니다.
AME-PIM: 메모리가 다음 텐서 가속기가 될 수 있을까?
본 연구는 고대역폭 메모리(HBM-PIM)를 활용하여 인공지능 가속기 백엔드로 사용하는 방안을 제시합니다. 기존 HBM-PIM의 제한적인 명령어 세트 문제를 해결하기 위해 RISC-V Attached Matrix Extension (AME)을 의미론적 참조로 사용하여, AME 명령어를 메모리 내 마이크로 커널과 데이터 명령어로 매핑하는 PEP 기반 실행 모델을 제안했습니다. 이 접근 방식은 원본 감축 지원 없이도 요소별 연산, GEMV, GEMM 등의 핵심 행렬 연산을 호스트 개입 및 외부 전송을 최소화하며 PIM 모드에서 효율적으로 수행할 수 있음을 입증했습니다.
RuC: HDL-무관 규칙 완성 벤치마크 생성
본 논문은 대형 언어 모델(LLMs)을 레지스터 전달 수준(RTL) 개발에 통합하는 추세 속에서 발생하는 기존 코드 완성 벤치마크의 한계를 극복하기 위해 '언어 무관 규칙 완성(RuC)' 프레임워크를 제안합니다. RuC는 문법 기반이며 규칙 선택 가능한 벤치마크 생성기로, 입력된 하드웨어 기술 언어(HDL) 소스 코드 세트로부터 자동으로 RTL 코드 완성 작업을 생성할 수 있습니다. 이 프레임워크는 마스킹을 통해 특정 영역의 코드를 제어하고 주변 컨텍스트를 활용하여 모델의 코드 이해 능력을 평가함으로써, 할당부터 전체 논리 블록 재구성까지 다양한 범위에서 LLM 성능을 측정할 수 있게 합니다.
NeuroRing: 다중 FPGA 양방향 링 토폴로지와 스트림-데이터플로우 아키텍처를 통한 스파이킹 신경망 확장
NeuroRing은 스트림-데이터플로우 아키텍처와 양방향 링 토폴로지를 결합하여 대규모 스파이킹 신경망(SNN)을 가속화하는 모듈형 FPGA 기반 플랫폼입니다. 이 시스템은 고수준 합성(HLS)을 통해 프로그래밍 가능하며, 단일 또는 다중 FPGA 배포를 지원하여 확장성이 뛰어납니다. 벤치마크 결과에 따르면 NeuroRing은 실시간보다 빠른 실행 속도를 달성하고 우수한 에너지 효율성을 보여주어, 신경과학 시뮬레이션 및 이벤트 기반 애플리케이션 모두에 유연하게 적용될 수 있음을 입증했습니다.
AHASD: 모바일 기기용 LLM 적응형 초안 생성 추상적 추론을 위한 비동기 이종 아키텍처
본 논문은 모바일 NPU-PIM 시스템에서 LLM의 추론 효율성을 높이는 적응형 초안 생성(Speculative Decoding)을 위한 새로운 비동기 이종 아키텍처인 AHASD를 제안합니다. AHASD는 작업 수준으로 DLM과 TLM을 분리하여 PIM에서 병렬 초안 생성이 가능하게 하고, 엔트로피-히스토리 인식 및 시간 인식 사전 검증 제어를 통합하여 자원 낭비를 최소화합니다. 실험 결과, AHASD는 기존 GPU 전용 베이스라인 대비 최대 4.2배의 처리량 향상과 5.6배의 에너지 효율성 향상을 달성하며 높은 성능을 입증했습니다.
N-ary 크로스바 아키텍처에서의 멀티비트 신경 추론
본 논문은 메모리 내 컴퓨팅(IMC)을 활용하여 에너지 효율적인 신경망 추론을 수행하는 N-ary 크로스바 아키텍처를 위한 시뮬레이션 프레임워크를 제시합니다. (4x4) 4 상태 자기 터널 접합(MTJ) 크로스바 어레이를 사용하여 XOR 및 MNIST 분류 작업에 성공적으로 추론을 수행했으며, 소프트웨어 기준선 대비 높은 성능을 달성했습니다. 연구진은 가중치 양자화를 주요 오차 원인으로 분석하고, 랜덤 노이즈와 체계적 비이상성의 영향을 연구하여 총 MVM 오차를 최소화하는 최적의 셀당 상태 수를 도출했습니다.
RISC-V 설계에 대한 Verification and Validation (V&V)-in-the-Loop: BZL 의 전체적 비전
바르셀로나 제타스케일 랩(BZL)은 RISC-V 기반 고성능 컴퓨팅 칩 설계를 위해 포괄적인 프리실리콘 검증 및 검증(V&V) 방법론을 제시합니다. 이 접근법은 UVM 기반 RTL 검증 환경, 시스템 수준의 FPGA 기반 하드웨어-소프트웨어 검증 플랫폼, 그리고 지속적인 자동화를 위한 CI/CD 흐름이라는 세 가지 상호 보완적인 플랫폼을 통합합니다. BZL의 V&V 루프는 RISC-V 칩 설계의 기능적 정확성과 시스템 수준 검증을 보장하는 견고하고 확장 가능한 기반을 제공하며, 유럽의 전략적 하드웨어 개발 이니셔티브에 기여할 것으로 기대됩니다.
SafeTune: RTL 코드 생성을 위한 LLM 파인튜닝中的数据 독소 공격 완화
SafeTune은 대형 언어 모델(LLMs)을 사용하여 RTL 코드와 같은 하드웨어 코드를 생성할 때 발생할 수 있는 데이터 독소 공격에 대응하기 위해 설계된 프레임워크입니다. 이 프레임워크는 구조적 속성을 모델링하는 그래프 신경망(GNN)과 텍스트 임베딩 및 XGBoost 분류기를 활용한 의미론적 검증 모듈을 결합합니다. SafeTune은 이러한 구조적 지식과 의미론적 지식을 통합하여, 학습 데이터의 무결성을 유지하면서도 독소 공격에 대한 LLM 기반 RTL 생성의 견고성과 신뢰성을 크게 향상시킵니다.
EMiX: 단일 FPGA 한계를 넘어선 시뮬레이션
EMiX는 단일 FPGA의 하드웨어 자원 한계를 극복하고 대규모 다중 코어 RISC-V 아키텍처를 시뮬레이션할 수 있도록 설계된 확장 가능한 다중 FPGA 프레임워크입니다. 이 플랫폼은 모놀리식 설계를 여러 구성 요소로 분할하여 상호 연결된 여러 FPGA에 배포하며, RTL 재설계 없이도 높은 확장성과 성능을 유지합니다. 연구진은 8개의 Alveo U55c FPGA를 사용하여 64 코어 아키텍처의 전체 시스템 실행(Linux 부팅 포함)을 성공적으로 시연했습니다.
No Tile Left Behind: Surface-Code Architecture 를 위한 멀티프로그래밍
본 논문은 오류 정정 양자 컴퓨팅(FTQC) 환경에서 발생하는 복잡한 멀티프로그래밍 문제를 다룹니다. FTQC는 데이터, 어닐라, 마법 상태 서비스 등 구조화된 자원 플로어플랜을 가지므로, 단순한 큐비트 풀 분할보다 훨씬 복잡합니다. 연구진은 이러한 구조적 제약과 런타임 영향을 포착하는 형식적 프레임워크를 개발했으며, 이를 통해 합성 클리포드+T 워크로드 시뮬레이션에서 시스템 속도를 크게 향상시키고 성능을 개선했습니다.
AMMA: 저지연 1M 컨텍스트 어텐션 서빙을 위한 멀티 칩렛 메모리 중심 아키텍처
AMMA는 초장문 컨텍스트(1M 토큰) 환경에서 발생하는 메모리 바운드 어텐션 병목 현상을 해결하기 위해 제안된 멀티 칩렛 메모리 중심 아키텍처입니다. 기존의 GPU 중심 설계가 디코드 단계의 메모리 요구 사항과 불일치하여 지연 시간을 증가시키고 전력을 낭비하는 문제를 개선합니다. AMMA는 컴퓨팅 다이를 HBM-PNM 큐브로 대체하고, 최적화된 마이크로아키텍처 및 새로운 병렬화 스킴을 도입하여 기존 대비 현저히 낮은 어텐션 지연 시간과 에너지 소비를 달성했습니다.
RAG-Enhanced Kernel-Based Heuristic Synthesis (RKHS): Large Language Models 를
본 논문은 대형 언어 모델(LLMs)이 단순한 코드 생성을 넘어 재사용 가능한 최적화 휴리스틱을 체계적으로 합성할 수 있는 새로운 방법론, RAG-Enhanced Kernel-Based Heuristic Synthesis (RKHS)를 제안합니다. RKHS는 검색 증강 생성(RAG), 컴팩트 커널 템플릿, 그리고 자기 피드백 루프를 통합하여 LLM의 성능을 향상시킵니다. 이 방법론은 고수준 합성(HLS)의 지연 시간 최소화 리스트 스케줄링에 적용되었으며, 기존 대비 평균 스케줄 길이를 최대 11% 단축하는 성과를 보였습니다.
Sparse-on-Dense: 밀집 행렬 곱셈 가속기에서 희소 신경망의 면적 및 에너지 효율적인 연산
심층 신경망의 크기가 커지면서 발생하는 높은 계산 복잡도와 메모리 요구 사항을 해결하기 위해 가지치기(Pruning)를 통해 희소 신경망이 활용되고 있습니다. 기존의 전용 희소 가속기는 인덱스 매칭 회로 때문에 면적과 전력 효율성 문제가 있었습니다. 본 논문은 이러한 문제를 해결하고자, 밀집 행렬 곱셈 하드웨어 가속기(Sparse-on-Dense)를 사용하여 희소 신경망 연산을 수행하는 면적 및 에너지 효율적인 방법을 제안합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.