Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AR 432건필터 해제
SPEC CPU: 다음 세대
SPEC CPU 2026은 프로세서 성능 측정을 위한 차세대 벤치마크 스위트를 소개하며, 이는 커뮤니티 협력과 원칙적인 개발 과정을 거쳤습니다. 이 새로운 스위트는 현대적이고 오픈 소스 애플리케이션을 기반으로 하며, 작업 부하의 다양성, 포터빌리티, 장기성을 강조합니다. 특히 'Rolling-Round-Robin Rate'와 같은 혁신적인 표준화된 접근법을 도입하여 이질적이고 멀티프로그램 환경에서의 성능 평가를 개선하고, 멀티스레드 벤치마크를 확장하여 최신 소프트웨어 요구사항을 반영했습니다.
RV-IM100: RISC-V 마이크로아키텍처에서의 ISA 확장, 데이터패스 폭, 파이프라인 깊이 트레이드오프 정량화
본 논문은 공통 파이프라인 베이스라인을 기반으로 데이터패스 폭(RV32/RV64), ISA 세트(I/IM), 파이프라인 깊이(5~8단계)를 체계적으로 변화시킨 10개의 마이크로아키텍처인 RV-IM100을 제시합니다. 이를 통해 RISC-V 아키텍처 설계 공간에서 성능, 전력, 면적 간의 트레이드오프를 정량적으로 분석했습니다. 주요 결과로는 파이프라인 깊이 증가가 항상 성능 향상을 보장하지 않으며, 데이터패스 폭 확장(RV32 vs RV64) 시 절대 성능은 차이가 있지만 효율성 측면에서는 벤치마크에 따라 우위가 달라짐을 보여줍니다.
SwiftChannel: 딥러닝 기반 5G 채널 추정용 알고리즘-하드웨어 공동 설계
본 논문은 5G 통신의 핵심 과제인 정확하고 빠른 채널 추정을 위해 알고리즘과 하드웨어를 공동 설계한 프레임워크 'SwiftChannel'을 제안한다. SwiftChannel은 파라미터 없는 어텐션 메커니즘이 강화된 CNN을 사용하여 저해상도 LS 추정치로부터 고해상도 공간 주파수 도메인 채널 행렬을 재구성하며, 지식 증류 및 양자화 인식 학습을 통해 모델을 압축한다. 이를 FPGA 플랫폼(Zynq UltraScale+ RFSoC)에 구현한 하드웨어 가속기는 밀리초 수준의 낮은 지연 시간과 GPU 대비 월등히 높은 속도 및 에너지 효율성을 달성하여 5G MIMO 시스템에 최적화된 솔루션을 제공한다.
Null Convention Logic (NCL) 기반 비동기 회로용 단일 칩 3D 통합
본 연구는 고속·저전력 비동기 회로 설계의 대안으로 떠오르는 Null Convention Logic (NCL)을 단일 칩 3D(M3D) 기술과 통합하는 새로운 설계 방법론을 제안합니다. 이 방법론은 M3D 기반 NCL 표준 셀 구현을 통해 기존 평면 대비 면적 비효율성을 개선하고, 임계 게이트를 활용하여 배열 곱셈기 회로를 성공적으로 설계했습니다. 시뮬레이션 결과, M3D 통합은 약 44%의 면적 감소와 함께 지연 및 전력 소비를 각각 31%, 17% 줄이는 높은 성능 향상을 입증했습니다.
프로토콜 독립형 전송 아키텍처
본 기술 기사는 현대 워크로드의 요구를 충족시키기 위해 NIC 하드웨어에 프로토콜 로직이 고정되는 기존 네트워크 전송 아키텍처의 한계를 지적합니다. 이를 해결하기 위해 'PITA(Protocol-Independent Transport Architecture)'라는 새로운 아키텍처를 제안하며, 이는 데이터 경로 전체의 프로그래밍 가능성을 확보하면서도 라인 레이트 성능을 유지하는 것을 목표로 합니다. PITA는 이벤트, 상태, 지시符에 대한 균일한 추상화를 기반으로 핵심 구성 요소를 재설계하여, TCP와 RoCE 같은 다양한 프로토콜 세맨틱스를 단일 데이터 경로에서 지원할 수 있음을 입증했습니다.
Cerberus: 데이터 보호를 위한 효율적이고 견고한 메모리 보호를 위한 교차 계층 ECC 공동 설계
Cerberus는 DRAM 고밀도 및 고속화에 따른 데이터 정확성 문제를 해결하기 위해 제안된 혁신적인 메모리 보호 아키텍처입니다. 기존의 독립적인 O-ECC, L-ECC, S-ECC 계층 구조가 가진 중복성과 공백 문제를 극복하고자 합니다. Cerberus는 'Encode-Once, Decode-Many (EODM)' 방식을 채택하여 단일 인코딩으로 세 가지 보호 계층(장치, 링크, 시스템)의 기능을 모두 수행하게 함으로써 효율성을 높이고 데이터 정확도를 획기적으로 개선합니다.
MRDIMMs 의 성능 및 에너지 효율성
MRDIMMs(멀티플렉싱 랭크 DIMMs)는 DRAM 주파수 증가 없이도 더 높은 대역폭을 제공하는 차세대 메모리 장치입니다. 이 기술은 기존 RDIMMs 대비 최대 41%의 대역폭 확장과 수백 나노초에 달하는 지연 시간 개선을 가능하게 합니다. 특히, MRDIMM으로 업그레이드할 경우 성능 향상 폭이 전력 증가를 크게 상회하여 메모리 제한 워크로드에서 서버 에너지 효율성을 최대 30%까지 높일 수 있습니다.
ViM-Q: FPGA 에 대한 Vision Mamba 모델 추론을 위한 확장 가능한 알고리즘·하드웨어 공동 설계
ViM-Q는 Vision Mamba(ViM) 모델의 추론을 위해 FPGA 하드웨어와 알고리즘을 공동 설계한 확장 가능한 솔루션입니다. 기존 연구에서 직면했던 양자화 및 메모리 접근 패턴 문제를 해결하기 위해, ViM-Q는 동적 토큰당 활성화 양자화와 커스텀 4-bit 중량 양자화를 결합한 하드웨어 감성 양자화 스키마를 도입했습니다. 이 솔루션은 LUT 기반의 선형 엔진과 파이프라인 SSM 엔진을 갖춘 FPGA 가속기로 구현되었으며, 실제 테스트에서 GPU 대비 높은 속도 향상 및 에너지 효율 개선을 입증하여 엣지 장치 배포의 실현 가능성을 제시합니다.
Lottery BP: 대규모 양자 오류 수정 코드에서 효율적인 디코딩 알고리즘
본 논문은 대규모 양자 오류 수정 코드(QECC)의 실시간 디코딩을 위한 효율적이고 확장 가능한 알고리즘인 'Lottery BP'를 제안합니다. Lottery BP는 기존 확률적 전파(BP) 방식 대비 높은 정확도 향상을 제공하며, Syndrome vote 전처리 단계를 통해 다중 라운드 오류 측정의 지연 시간 및 백로그 문제를 해결합니다. 또한, 로컬 디코더와 글로벌 디코더를 결합한 'PolyQec' 아키텍처와 PyTorch 기반의 유연하고 빠른 시뮬레이터 'Syndrilla'를 개발하여 양자 컴퓨팅 분야의 실질적인 발전에 기여했습니다.
Agent 기반 메모리 스펙 자동 형식화: DRAMPyML 및 DRAMBench 소개
본 기술 기사는 디자인 검증(DV) 과정에서 발생하는 스펙 문서 해석의 어려움을 해결하기 위한 방법을 제시합니다. 특히, 산업 표준인 DRAM과 같은 자연어 메모리 칩 스펙을 형식적이고 검증 가능한 표현인 DRAMPyML로 자동 변환하는 시스템을 소개합니다. 또한, 하드웨어 자동 형식화 분야의 모델 성능 평가를 위해 새로운 벤치마킹 데이터셋인 DRAMBench도 공개하여 연구 커뮤니티에 기여합니다.
DPU 나 GPU 를 활용한 신경망 추론 가속화: 왜 둘 다 사용해야 할까? Split CNN Inference
본 논문은 에지 디바이스에서 낮은 지연 시간이 요구되는 신경망 추론 가속화를 위해 DPU와 GPU를 결합하여 CNN을 분할 처리하는 'Split CNN Inference' 방법을 제안합니다. 이 방법은 데이터 소스 근처의 DPU가 초기 레이어를 처리하고, 파이프라인 방식으로 비동기적으로 GPU가 나머지 레이어를 처리함으로써 전체 시스템 지연 시간을 크게 줄입니다. 또한, 모델 구조를 자동으로 최적 분할하기 위해 GNN 기반의 분할 지수 예측 방법을 제시하여 높은 정확도와 성능 향상을 입증했습니다.
PVT 내성 서브스레드 SRAM 기반 메모리 내 컴퓨팅 가속기: 에너지 효율적인 스파이킹 신경망용 인시투 조절
본 논문은 에너지 효율성이 높은 스파이킹 신경망(SNN)을 위해 PVT 내성을 갖춘 서브스레드 SRAM 기반 컴퓨팅-인메모리(CIM) 매크로를 제안합니다. 이 아키텍처는 인시투 전류 센서와 분산형 전압 조절기를 통합하여 에너지 오버헤드를 줄이고 공정 변동에 대한 내성을 높였습니다. 특히, 프로그래밍 가능한 메모리 셀 기반 발화 임계값을 사용하여 SNN의 PVT 민감도를 개선했으며, 28nm CMOS에서 높은 정확도와 뛰어난 TOPS/W 성능을 달성하여 고성능 엣지 컴퓨팅 솔루션으로 제시합니다.
VitaLLM: 엣지 디바이스에서의 정밀도 혼합 대형 언어 모델 추론을 위한 다목적 소형 가속기
VitaLLM은 엣지 디바이스에서 삼진(ternary) 가중치를 사용하는 대형 언어 모델(LLM) 추론을 효율적으로 수행하기 위해 설계된 다목적 소형 가속기입니다. 이 아키텍처는 곱셈 없는 TINT 코어와 BoothFlex 코어를 결합하여, 배열 복제 없이도 다양한 정밀도의 연산을 처리합니다. 또한, 예측 스텔스 어텐션 메커니즘과 시스템 레벨 최적화를 통해 KV 트래픽을 줄이고 전반적인 효율성을 극대화했습니다.
Tempus: Versal AI 에지용 시간 확장성 및 리소스 불변 GEMM 스트리밍 프레임워크
본 기술 기사는 대형 언어 모델(LLMs)의 에지 배포 시 발생하는 컴퓨팅, 메모리, 전력 제약을 해결하기 위해 'Tempus'라는 새로운 GEMM 스트리밍 프레임워크를 제안합니다. Tempus는 AMD Versal AI SoC의 AIE 코어를 고정된 블록으로 사용하고, 데이터 타일링 및 그래프 실행을 통해 공간적 확장 대신 시간적 확장성을 달성하는 것이 핵심입니다. 이 접근 방식은 기존 SOTA 방법론 대비 월등히 높은 시스템 효율성과 리소스 절감 효과를 보여주며, 에지 LLM 추론에 지속 가능하고 확장 가능한 기반을 제공합니다.
Sim-FA: 비동기 파이프라인을 위한 시뮬레이터 프론트엔드
본 논문은 대규모 언어 모델(LLMs)의 효율적인 지원을 위해 도입된 워프 특화와 같은 새로운 GPGPU 아키텍처 기능을 반영하는 시뮬레이션 파이프라인, Sim-FA를 제안합니다. 기존 학술 도구들이 최신 GPU 기능(예: TMA)이나 작업 특성(예: DRAM 트래픽)을 정확하게 포착하지 못하는 한계를 극복하고자 합니다. Sim-FA는 FlashAttention-3 커널 인스트루멘테이션부터 사이클 정확도 시뮬레이션까지 통합하여, H800 대비 낮은 오차율로 높은 정확도를 입증했습니다.
클라이언트에서의 효율적이고 VRAM 제약이 있는 xLM 추론
본 논문은 고정확도 대형 언어 모델(LLMs)과 비전 언어 모델(VLMs)을 결합한 xLMs의 효율적이고 VRAM 제약이 있는 클라이언트 추론을 목표로 합니다. 이를 위해, 밀집형 및 MoE LLM 모두에 적용 가능한 새로운 CPU-GPU 하이브리드 스케줄링 기술인 '파이프라인 샤딩(pipelined sharding)'을 제시합니다. 이 기술은 서브 레이어 레벨 모델 샤딩, CPU 오프로딩, 파이프라인 복사-계산 등을 조합하여 TTFT 및 TPS를 최적화하며, 기존의 llama.cpp 구현과 결합하여 클라이언트 xLM 추론 성능을 획기적으로 개선합니다.
Guess-Verify-Refine: Blackwell 기반 희소 주의력 디코딩을 위한 데이터 인식형 Top-K 알고리즘
본 논문은 Blackwell 아키텍처 기반의 희소 주의력(sparse-attention) 디코더를 위한 데이터 인식형 정확한 Top-K 알고리즘인 Guess-Verify-Refine (GVR)을 제안합니다. GVR은 연속적인 디코딩 단계 간의 시간적 상관관계를 활용하여, 이전 단계의 결과를 예측 신호로 사용하고 전역 패스를 통해 후보군 범위를 좁힌 후, 무투표 수집기(ballot-free collector)를 이용해 정확한 Top-K 선택을 완료합니다. 이 알고리즘은 기존 프로덕션 커널 대비 단일 연산 속도 및 레이어당 단계별 속도를 크게 향상시키면서도 비트 정밀도의 Top-K 출력을 유지하며, 특히 긴 컨텍스트와 추측성 디코딩 환경에서 상당한 성능 개선을 입증했습니다.
Agentic Architect: 컴퓨터 아키텍처 설계 탐색 및 최적화를 위한 에이전트형 AI 프레임워크
본 기술 기사는 컴퓨터 아키텍처 설계의 복잡한 공간을 효율적으로 탐색하고 최적화하기 위해 'Agentic Architect'라는 에이전트형 AI 프레임워크를 소개합니다. 이 프레임워크는 LLM 기반 코드 진화와 사이클 정확도 시뮬레이션을 결합하여, 캐시 교체, 데이터 프리페칭, 브랜치 예측 등 핵심 아키텍처 구성 요소에서 기존의 최첨단 설계 대비 뛰어난 성능 향상을 입증했습니다. 연구 결과에 따르면, 혁신성은 개별 구성 요소 자체보다는 이들이 어떻게 조합되고 조정되는 방식에서 비롯되며, 성공적인 설계를 위해서는 고품질의 초기 시드와 명확한 목표 및 제약 조건 설정이 필수적입니다.
RISC-V 멀티 레인 체이닝 벡터 프로세서의 지속 처리량을 위한 마이크로아키텍처 공동 최적화
본 연구는 RISC-V 벡터 프로세서가 멀티 레인 체이닝을 통해 높은 지속 처리량을 달성하는 과정에서 발생하는 마이크로아키텍처 비효율성을 분석하고 이를 최적화하는 방법을 제시합니다. 오픈소스 RVV 프로세서 Ara를 대상으로, 데이터 공급/트랜잭션 발행의 메모리 측 비효율성, 의존성 관리 및 제어 측 비효율성, 오퍼랜드 전달 비효율성의 세 가지 핵심 병목 현상을 식별했습니다. 그 결과, 하드웨어 자원 변경 없이도 기존 대비 1.33배의 기하 평균 속도 향상과 높은 격차 폐쇄 비율을 달성하여, 이론적 성능 한계에 근접한 지속 처리량 능력을 효과적으로 회복할 수 있음을 입증했습니다.
Voxel을 활용한 voxel 기반 LLM 추론을 위한 3D 스택형 AI 칩 아키텍처 효율성 탐구
본 기술 기사는 메모리 병목 현상을 극복하기 위한 3D 스택형 AI 칩 아키텍처의 효율성을 탐구하는 내용을 다룹니다. 저자들은 LLM 추론에 특화된 빠르고 컴파일러 인식(end-to-end) 시뮬레이션 프레임워크인 Voxel을 개발했습니다. Voxel은 소프트웨어와 하드웨어를 통합적으로 분석하여, 컴퓨팅 패러다임부터 메모리 매핑 전략, NoC 토폴로지, 에너지 제약 조건에 이르기까지 다양한 요소들이 3D 스택형 AI 칩의 최종 효율성에 어떻게 기여하는지 심층적으로 보여줍니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.