Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AR 432건필터 해제
신뢰성 높은 대규모 DNN을 위한 ECC의 효과적이고 메모리 효율적인 대안
현대 딥러닝 모델이 자동차 시스템이나 데이터 센터와 같은 안전 필수 영역에 사용되면서 일시적인 하드웨어 결함으로부터의 신뢰성 확보가 중요해지고 있습니다. 본 논문은 메모리 집약적 DL 워크로드에서 ECC를 적용하는 기존 방식의 한계를 극복하고, 우수한 신뢰성을 유지하면서도 메모리 효율적인 두 가지 대안(MSET 및 CEP)을 제안합니다.
MoE-Hub: Taming Software Complexity for Seamless MoE Overlap with
MoE-Hub는 대규모 언어 모델(LLM)에서 발생하는 MoE 아키텍처의 확장성 문제를 해결하기 위해 제안된 하드웨어-소프트웨어 공동 설계 솔루션입니다. 기존 시스템은 MoE의 동적 토큰-전문가 매핑과 GPU의 정적 주소 기반 통신 간의 불일치로 인해 복잡한 소프트웨어 중재 단계를 거쳐야 했고, 이는 성능 저하를 야기했습니다. MoE-Hub는 데이터 전송을 주소 관리에서 분리하고 로직적 목적지만 사용하여 라우팅함으로써, 하드웨어 가속화된 통신 제어 평면을 통해 원활하고 투명한 겹침(overlap)을 가능하게 하여 성능을 크게 향상시킵니다.
SPEC CPU2026: Characterization, Representativeness, and Cross-Suite Comparison
본 기술 기사는 최신 워크로드와 병목 현상을 반영하도록 진화한 SPEC CPU2026 벤치마크 분석 결과를 제시합니다. 연구진은 Intel, AMD, Ampere, Nvidia 등 다양한 플랫폼에 걸쳐 9개 플랫폼을 아우르는 종합적인 분석을 수행했으며, SPEC CPU2026이 이전 버전 대비 명령어 양과 메모리 발자국을 증가시키고 새로운 병목 현상(예: 인스트럭션 캐시 스트레스)으로 압력을 이동시킨 것을 발견했습니다. 또한, 전체 벤치마크 스위트의 대표성을 유지하면서 평가 비용을 크게 줄일 수 있는 효율적인 서브셋 구성 방법과, SPEC CPU2017, DCPerf, MLPerf 등 다른 표준과의 비교 분석 결과를 제공하여 실용적인 아키텍처 연구를 지원합니다.
Beyond Static Policies: Exploring Dynamic Policy Selection for Single-Thread
본 논문은 프로세서 설계의 전통적인 정적 정책 기반 접근 방식에 의문을 제기하며, 단일 스레드 성능 향상을 위해 여러 정책 조합을 동적으로 선택하는 방식을 탐구한다. 연구진은 49개의 벤치마크를 세분화하여 시뮬레이션을 수행했으며, 그 결과 최상의 정적 정책이 항상 최적인 것은 아니며, 특히 두 개의 신중하게 선택된 정책 간의 동적 전환이 평균 IPC 손실을 크게 줄여 오라클 성능에 근접한 높은 효율성을 달성할 수 있음을 입증했다. 이는 단일 스레드 성능 개선이 어려워지는 현 시점에서 매우 유망한 새로운 설계 접근법임을 시사한다.
단상(Single-Phase)에서 이상(Two-Phase), 비중첩 클로킹 변환을 위한 오픈소스 흐름
본 논문은 현대 설계 흐름에서 자동화가 부족하여 채택이 어려웠던 2상 클로킹(Two-Phase Clocking)을 위한 완전 자동화된 오픈 소스 플로우를 제시합니다. 이 방법론은 OpenROAD Flow Scripts (ORFS)에 통합되어, 기존의 플립플롭 기반 RTL을 Yosys 기술 매핑, ABC 리타이밍, 듀얼 클럭 트리 합성 등을 사용하여 래치 기반 설계로 자동 변환합니다. 이를 통해 타이밍 마진과 유연성을 확보하면서도, 전력 감소 및 래치 수 감소 효과를 입증하는 두 가지 변형(클럭 게이팅 및 순환 멀티플렉서)을 구현했습니다.
Multi-GPU 환경에서의 MoE 가속을 위한 동적 인-스위칭 컴퓨팅
Mixture-of-Experts (MoE) 모델은 대규모 언어 모델에서 계산 효율성을 높이는 데 사용되지만, 전문가 병렬성(EP) 과정에서의 빈번하고 비규칙적인 인터-GPU 통신이 성능 저하의 주요 원인입니다. 기존의 NVLink SHARP와 같은 솔루션들은 이러한 동적이고 비규칙적인 패턴을 지원하지 못합니다. 본 논문은 이러한 격차를 해소하기 위해, 통합된 동적 인-스위칭 컴퓨팅 솔루션인 DySHARP를 제안했습니다.
Towards Compute-Aware In-Switch Computing for LLMs Tensor-Parallelism on
본 논문은 대규모 언어 모델(LLM)의 텐서 병렬성(TP) 과정에서 발생하는 통신-계산 불일치 문제를 해결하기 위한 'Compute-Aware In-Switch 컴퓨팅' 프레임워크인 CAIS를 제안합니다. 기존의 인-스위치 컴퓨팅 솔루션은 통신 중심 설계로 인해 LLM 계산 커널의 메모리 요구사항과 충돌하여 자원 활용도와 오버랩에 한계가 있었습니다. CAIS는 Compute-Aware ISA 확장, 요청 병합 개선을 위한 Merge-Aware TB 좌표 사용, 그리고 그래프 수준 데이터플로우 옵티마이저를 통해 통신 모드가 계산의 메모리 의미 요구와 일치하도록 설계되어, 다중 GPU 시스템에서 LLM 훈련 속도를 크게 향상시킵니다.
TokenStack: A Heterogeneous HBM-PIM Architecture and Runtime for Efficient LLM
본 기술 기사는 대형 언어 모델(LLM) 서빙의 주요 병목인 KV 캐시 메모리 문제를 해결하기 위해 'TokenStack'이라는 이질적인 HBM-PIM 아키텍처를 제안합니다. TokenStack은 LLM 레이어를 밀집 용량 영역과 PIM 활성화 컴퓨팅 영역으로 수직 분리하고, 논리 기반 디어 컨트롤러를 사용하여 효율적으로 데이터 이동 및 관리를 수행합니다. 이를 통해 뜨거운 KV 캐시 데이터를 PIM 근처에 유지하고 차가운 상태는 고밀도 저장소로 옮겨 메모리 대역폭과 용량을 최적화하며, 기존 방식 대비 높은 처리량 증가와 에너지 효율성 개선을 입증했습니다.
On-Orbit Real-Time Wildfire Detection Under On-Board Constraints
본 논문은 9개 위성을 이용한 실시간 산불 감지 시스템을 제시하며, 특히 모델 크기, 추론 지연 시간, 전체 알림 파이프라인 등 까다로운 제약 조건 하에서 작동하는 데 초점을 맞추고 있습니다. 연구진은 독점적인 MWIR 데이터셋과 DenseMAE 및 그 변형(hybrid DenseMAE+EMA)을 활용하여 경량화된 밀집 표현 학습(dense representation learning) 방법을 개발했습니다. 이 방법론은 극심한 클래스 불균형 환경에서 높은 정확도와 낮은 지연 시간을 동시에 달성하며, 기존의 산불 감지 방식이 해결하지 못했던 문제를 개선하는 것을 목표로 합니다.
A virtually connected probabilistic computer as a solver for higher-order
본 논문은 NP-hard 문제 해결을 위한 비전통적 컴퓨팅 접근법의 한계점을 지적하며, 특히 기하학적 구조 변환 과정에서 발생하는 해 품질 저하 문제를 다룹니다. 이를 극복하기 위해 고속 광학 양자 무작위 수생성기를 기반으로 하는 확률적 컴퓨팅 아키텍처와 가상 하드웨어 연결을 활용하여 문제의 선택집합에 대한 휴리스틱 해법 적용 가능성을 논합니다. 또한, 그리디 그래프 컬러링 알고리즘을 통해 스케일링 가능한 병렬화를 구현하고, 광학 확률적 컴퓨터가 디지털 어닐링 유닛보다 지수적으로 빠른 성능을 보일 것으로 예측하며 그 우수성을 입증합니다.
LLM-Driven Design Space Exploration of FPGA-based Accelerators
본 논문은 대형 언어 모델(LLMs)을 활용하여 FPGA 기반 가속기의 설계 공간 탐색(Design Space Exploration, DSE) 과정을 자동화하는 프레임워크인 SECDA-DSE를 제안합니다. 기존의 하드웨어-소프트웨어 공동 설계 방법론(SECDA)은 복잡하지만 최적 설계를 찾기 위해 수동 노력이 많이 필요했습니다. SECDA-DSE는 구조화된 탐색 도구, LLM 기반 추론 엔진(RAG 및 CoT 프롬프팅), 그리고 강화 학습 피드백 루프를 결합하여 효율적인 자동화된 가속기 설계 최적화를 가능하게 합니다.
XtraMAC: An Efficient MAC Architecture for Mixed-Precision LLM Inference on FPGA
본 논문은 대규모 언어 모델(LLMs)의 혼합 정밀도 추론에 최적화된 새로운 MAC 아키텍처인 XtraMAC을 제안합니다. 기존 FPGA 기반 솔루션들이 가진 고정 데이터 타입 및 자원 공유 비효율성 문제를 해결하기 위해, XtraMAC은 단일 데이터 타입 적응형 마이크로 아키텍처 내에서 정수, 부동소수점, 혼합 정밀도 연산을 통합적으로 처리합니다. AMD Xilinx U55c FPGA 테스트 결과, XtraMAC은 기존 대비 높은 컴퓨팅 밀도와 에너지 효율성, 속도 향상을 입증했습니다.
PoTAcc: A Pipeline for End-to-End Acceleration of Power-of-Two Quantized DNNs
본 논문은 리소스 제약이 있는 에지 장치에서 Power-of-Two (PoT) 양자화된 심층 신경망(DNN)을 효율적으로 가속화하기 위한 오픈 소스 엔드투엔드 파이프라인인 PoTAcc를 제안합니다. PoT양자화는 DNN 크기를 줄이고 곱셈 연산을 비트 시프트로 대체하여 에지 컴퓨팅에 적합하지만, 기존 프레임워크와 하드웨어 지원의 부족으로 배포가 어려웠습니다. PoTAcc는 TFLite 기반으로 CPU 및 커스텀 FPGA 가속기를 아우르는 이종 플랫폼에서 모델 준비와 배포를 원활하게 하며, 이를 통해 최대 3.6배의 속도 향상과 78%의 에너지 절감을 입증했습니다.
DICE: Enabling Efficient General-Purpose SIMT Execution with Statically
본 논문은 기존 SIMT 기반 GPU의 높은 레지스터 파일(RF) 액세스 및 제어 로직 오버헤드를 해결하기 위해 DICE라는 새로운 아키텍처를 제안합니다. DICE는 SIMD 백엔드를 최소 오버헤드의 정적 스케줄링 CGRA(Coarse-Grained Reconfigurable Arrays)로 대체하여, 활성 스레드를 피플라인 방식으로 직접 디스패치하고 데이터 흐름을 처리 요소(PE) 간에 직접 발생시켜 RF 액세스를 크게 줄입니다. 이 아키텍처는 동적 의존성을 정적으로 관리하는 'p-graph' 컴파일 방식을 사용하며, 추가적인 최적화들(더블 버퍼링, 언롤링, TMCU 등)을 통해 기존 GPU 대비 높은 에너지 효율과 전력 감소를 달성함을 입증했습니다.
UVMarvel: an Automated LLM-aided UVM Machine for Subsystem-level RTL
UVMarvel은 LLM(대규모 언어 모델)을 활용하여 서브시스템 레벨 RTL에 대한 UVM 테스트벤치를 자동으로 구축하는 혁신적인 검증 프레임워크입니다. 이 도구는 Intermediate Representation (IR)과 Bus Protocol Library를 도입하고 Signal Tracker 및 Verilog Patching Library를 사용하여 복잡한 사양을 프로토콜 정합의 UVM 환경으로 자동 변환합니다. UVMarvel은 기존에 수동 코딩과 전문 지식이 필요했던 테스트벤치 구축 과정을 획기적으로 단축하여, 검증 시간을 수일에서 몇 시간으로 줄이고 높은 코드 커버리지를 달성할 수 있게 합니다.
Silicon Showdown: Performance, Efficiency, and Ecosystem Barriers in
로컬 대형 언어 모델(LLM) 추론 환경은 경량 모델에서 초대형 모델로 진화하며 소비자 하드웨어에 심각한 시스템적 과제를 제기하고 있습니다. 본 논문은 Nvidia와 Apple Silicon 생태계를 비교 분석하여, 거대 모델 배포를 위한 아키텍처별 트레이드오프를 제시합니다. 특히 Nvidia는 높은 처리량을 제공하지만 복잡한 런타임 제약과 VRAM 한계에 직면하는 반면, Apple의 통합 메모리 아키텍처(UMA)는 병목 현상을 우회하며 뛰어난 에너지 효율성과 확장성을 보여줍니다.
Tempus: A Temporally Scalable Resource-Invariant GEMM Streaming Framework for
본 기술 기사는 대규모 언어 모델(LLMs)의 엣지 배포 환경에서 필수적인 일반 행렬 곱셈(GEMM) 가속을 위한 새로운 프레임워크인 Tempus를 제안합니다. 기존 SOTA 프레임워크들이 공간적 스케일링에 의존하여 리소스 제한된 엣지 SoC에서 실패하는 문제를 해결하기 위해, Tempus는 고정된 계산 블록과 시간 기반의 스트리밍 및 데이터 타일링을 통해 자원 불변(Resource-Invariant)한 확장성을 달성합니다. 이 프레임워크는 AMD Versal AI Edge SoC에서 높은 성능(607 GOPS @ 10.677 W)과 함께 기존 방식 대비 월등히 낮은 전력 및 리소스 활용도를 입증하며, 엣지 LLM 추론을 위한 지속 가능한 기반을 제공합니다.
Sim-FA: A GPGPU Simulator Framework for Fine-Grained FlashAttention Pipeline
본 논문은 대규모 언어 모델(LLMs)의 효율적인 처리를 위해 도입된 와프 전문화와 같은 최신 GPGPU 아키텍처 기능을 지원하는 사이클 정확도 시뮬레이터 프레임워크인 Sim-FA를 제안합니다. 기존 학술 도구들이 새로운 GPU 기능(예: TMA)을 적시에 통합하지 못하고 DRAM 트래픽 추정에서 부정확성을 보이는 문제를 해결하고자 합니다. Sim-FA는 FlashAttention-3 커널 인스트루멘테이션부터 사이클 정확도 시뮬레이션까지의 전체 파이프라인을 구축했으며, H800과 비교하여 낮은 오차율(MAPE 5.7%)을 달성하며 그 성능을 입증했습니다.
HERCULES: 하드웨어 효율성, 내구성, 지속적 학습을 위한 신경 구조 탐색
본 논문은 신경 구조 탐색(NAS)이 단순히 정확도와 효율성을 넘어, 실제 배포 환경에서 필수적인 내구성(Robustness)과 지속적 학습(Continual Learning)까지 포괄하는 '삼중 목표'로 진화하고 있음을 분석합니다. 저자들은 이 세 가지 축을 기준으로 NAS 접근법들을 분류하고, 이를 통합적으로 다루는 새로운 프레임워크인 HERCULES를 제안했습니다. HERCULES는 다중 목표 NAS의 계산 비용 문제를 해결하며, 궁극적으로 하드웨어 효율성, 환경 탄력성, 구조적 가소성을 모두 갖춘 배포 가능한 평생 학습 AI 시스템으로 가는 로드맵을 제시합니다.
FPGA에 배포된 미분 논리 게이트 네트워크의 자원 활용
본 논문은 엣지 ML 환경에서 자원 효율성을 높이기 위해 설계된 미분 논리 게이트 네트워크(LGN)의 FPGA 구현에 초점을 맞춥니다. 연구는 LGN의 깊이와 너비를 변화시키면서 전력, 자원 활용, 추론 속도, 모델 정확도 간의 복잡한 트레이드오프를 분석합니다. 주요 결과로, LGN의 마지막 층이 합성 연산의 논리 크기를 결정하여 타이밍 및 자원 사용량 최소화에 가장 중요한 역할을 한다는 점을 밝혀냈습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.