© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AR 124건필터 해제

Lottery BP: 대규모 양자 오류 수정 코드에서 효율적인 디코딩 알고리즘

본 논문은 대규모 양자 오류 수정 코드(QECC)의 실시간 디코딩을 위한 효율적이고 확장 가능한 알고리즘인 'Lottery BP'를 제안합니다. Lottery BP는 기존 확률적 전파(BP) 방식 대비 높은 정확도 향상을 제공하며, Syndrome vote 전처리 단계를 통해 다중 라운드 오류 측정의 지연 시간 및 백로그 문제를 해결합니다. 또한, 로컬 디코더와 글로벌 디코더를 결합한 'PolyQec' 아키텍처와 PyTorch 기반의 유연하고 빠른 시뮬레이터 'Syndrilla'를 개발하여 양자 컴퓨팅 분야의 실질적인 발전에 기여했습니다.

quantum-error-correctiondecoding-algorithmfault-tolerancetopological-codessyndrome-vote

Agent 기반 메모리 스펙 자동 형식화: DRAMPyML 및 DRAMBench 소개

본 기술 기사는 디자인 검증(DV) 과정에서 발생하는 스펙 문서 해석의 어려움을 해결하기 위한 방법을 제시합니다. 특히, 산업 표준인 DRAM과 같은 자연어 메모리 칩 스펙을 형식적이고 검증 가능한 표현인 DRAMPyML로 자동 변환하는 시스템을 소개합니다. 또한, 하드웨어 자동 형식화 분야의 모델 성능 평가를 위해 새로운 벤치마킹 데이터셋인 DRAMBench도 공개하여 연구 커뮤니티에 기여합니다.

design-verificationhardware-formalizationdram

DPU 나 GPU 를 활용한 신경망 추론 가속화: 왜 둘 다 사용해야 할까? Split CNN Inference

본 논문은 에지 디바이스에서 낮은 지연 시간이 요구되는 신경망 추론 가속화를 위해 DPU와 GPU를 결합하여 CNN을 분할 처리하는 'Split CNN Inference' 방법을 제안합니다. 이 방법은 데이터 소스 근처의 DPU가 초기 레이어를 처리하고, 파이프라인 방식으로 비동기적으로 GPU가 나머지 레이어를 처리함으로써 전체 시스템 지연 시간을 크게 줄입니다. 또한, 모델 구조를 자동으로 최적 분할하기 위해 GNN 기반의 분할 지수 예측 방법을 제시하여 높은 정확도와 성능 향상을 입증했습니다.

split-cnnedge-aidpu

PVT 내성 서브스레드 SRAM 기반 메모리 내 컴퓨팅 가속기: 에너지 효율적인 스파이킹 신경망용 인시투 조절

본 논문은 에너지 효율성이 높은 스파이킹 신경망(SNN)을 위해 PVT 내성을 갖춘 서브스레드 SRAM 기반 컴퓨팅-인메모리(CIM) 매크로를 제안합니다. 이 아키텍처는 인시투 전류 센서와 분산형 전압 조절기를 통합하여 에너지 오버헤드를 줄이고 공정 변동에 대한 내성을 높였습니다. 특히, 프로그래밍 가능한 메모리 셀 기반 발화 임계값을 사용하여 SNN의 PVT 민감도를 개선했으며, 28nm CMOS에서 높은 정확도와 뛰어난 TOPS/W 성능을 달성하여 고성능 엣지 컴퓨팅 솔루션으로 제시합니다.

snnin-memory-computingsram

VitaLLM: 엣지 디바이스에서의 정밀도 혼합 대형 언어 모델 추론을 위한 다목적 소형 가속기

VitaLLM은 엣지 디바이스에서 삼진(ternary) 가중치를 사용하는 대형 언어 모델(LLM) 추론을 효율적으로 수행하기 위해 설계된 다목적 소형 가속기입니다. 이 아키텍처는 곱셈 없는 TINT 코어와 BoothFlex 코어를 결합하여, 배열 복제 없이도 다양한 정밀도의 연산을 처리합니다. 또한, 예측 스텔스 어텐션 메커니즘과 시스템 레벨 최적화를 통해 KV 트래픽을 줄이고 전반적인 효율성을 극대화했습니다.

llm-accelerationedge-aiternary-weights

Tempus: Versal AI 에지용 시간 확장성 및 리소스 불변 GEMM 스트리밍 프레임워크

본 기술 기사는 대형 언어 모델(LLMs)의 에지 배포 시 발생하는 컴퓨팅, 메모리, 전력 제약을 해결하기 위해 'Tempus'라는 새로운 GEMM 스트리밍 프레임워크를 제안합니다. Tempus는 AMD Versal AI SoC의 AIE 코어를 고정된 블록으로 사용하고, 데이터 타일링 및 그래프 실행을 통해 공간적 확장 대신 시간적 확장성을 달성하는 것이 핵심입니다. 이 접근 방식은 기존 SOTA 방법론 대비 월등히 높은 시스템 효율성과 리소스 절감 효과를 보여주며, 에지 LLM 추론에 지속 가능하고 확장 가능한 기반을 제공합니다.

gemmllmsedge-ai

Sim-FA: 비동기 파이프라인을 위한 시뮬레이터 프론트엔드

본 논문은 대규모 언어 모델(LLMs)의 효율적인 지원을 위해 도입된 워프 특화와 같은 새로운 GPGPU 아키텍처 기능을 반영하는 시뮬레이션 파이프라인, Sim-FA를 제안합니다. 기존 학술 도구들이 최신 GPU 기능(예: TMA)이나 작업 특성(예: DRAM 트래픽)을 정확하게 포착하지 못하는 한계를 극복하고자 합니다. Sim-FA는 FlashAttention-3 커널 인스트루멘테이션부터 사이클 정확도 시뮬레이션까지 통합하여, H800 대비 낮은 오차율로 높은 정확도를 입증했습니다.

llmsgpgpugpu-architecture

클라이언트에서의 효율적이고 VRAM 제약이 있는 xLM 추론

본 논문은 고정확도 대형 언어 모델(LLMs)과 비전 언어 모델(VLMs)을 결합한 xLMs의 효율적이고 VRAM 제약이 있는 클라이언트 추론을 목표로 합니다. 이를 위해, 밀집형 및 MoE LLM 모두에 적용 가능한 새로운 CPU-GPU 하이브리드 스케줄링 기술인 '파이프라인 샤딩(pipelined sharding)'을 제시합니다. 이 기술은 서브 레이어 레벨 모델 샤딩, CPU 오프로딩, 파이프라인 복사-계산 등을 조합하여 TTFT 및 TPS를 최적화하며, 기존의 llama.cpp 구현과 결합하여 클라이언트 xLM 추론 성능을 획기적으로 개선합니다.

llmsvlmsclient-inference

Guess-Verify-Refine: Blackwell 기반 희소 주의력 디코딩을 위한 데이터 인식형 Top-K 알고리즘

본 논문은 Blackwell 아키텍처 기반의 희소 주의력(sparse-attention) 디코더를 위한 데이터 인식형 정확한 Top-K 알고리즘인 Guess-Verify-Refine (GVR)을 제안합니다. GVR은 연속적인 디코딩 단계 간의 시간적 상관관계를 활용하여, 이전 단계의 결과를 예측 신호로 사용하고 전역 패스를 통해 후보군 범위를 좁힌 후, 무투표 수집기(ballot-free collector)를 이용해 정확한 Top-K 선택을 완료합니다. 이 알고리즘은 기존 프로덕션 커널 대비 단일 연산 속도 및 레이어당 단계별 속도를 크게 향상시키면서도 비트 정밀도의 Top-K 출력을 유지하며, 특히 긴 컨텍스트와 추측성 디코딩 환경에서 상당한 성능 개선을 입증했습니다.

blackwellsparse-attentiontop-k

Agentic Architect: 컴퓨터 아키텍처 설계 탐색 및 최적화를 위한 에이전트형 AI 프레임워크

본 기술 기사는 컴퓨터 아키텍처 설계의 복잡한 공간을 효율적으로 탐색하고 최적화하기 위해 'Agentic Architect'라는 에이전트형 AI 프레임워크를 소개합니다. 이 프레임워크는 LLM 기반 코드 진화와 사이클 정확도 시뮬레이션을 결합하여, 캐시 교체, 데이터 프리페칭, 브랜치 예측 등 핵심 아키텍처 구성 요소에서 기존의 최첨단 설계 대비 뛰어난 성능 향상을 입증했습니다. 연구 결과에 따르면, 혁신성은 개별 구성 요소 자체보다는 이들이 어떻게 조합되고 조정되는 방식에서 비롯되며, 성공적인 설계를 위해서는 고품질의 초기 시드와 명확한 목표 및 제약 조건 설정이 필수적입니다.

llmcomputer-architectureai-framework

RISC-V 멀티 레인 체이닝 벡터 프로세서의 지속 처리량을 위한 마이크로아키텍처 공동 최적화

본 연구는 RISC-V 벡터 프로세서가 멀티 레인 체이닝을 통해 높은 지속 처리량을 달성하는 과정에서 발생하는 마이크로아키텍처 비효율성을 분석하고 이를 최적화하는 방법을 제시합니다. 오픈소스 RVV 프로세서 Ara를 대상으로, 데이터 공급/트랜잭션 발행의 메모리 측 비효율성, 의존성 관리 및 제어 측 비효율성, 오퍼랜드 전달 비효율성의 세 가지 핵심 병목 현상을 식별했습니다. 그 결과, 하드웨어 자원 변경 없이도 기존 대비 1.33배의 기하 평균 속도 향상과 높은 격차 폐쇄 비율을 달성하여, 이론적 성능 한계에 근접한 지속 처리량 능력을 효과적으로 회복할 수 있음을 입증했습니다.

risc-vvector-processormicroarchitecture

Voxel을 활용한 voxel 기반 LLM 추론을 위한 3D 스택형 AI 칩 아키텍처 효율성 탐구

본 기술 기사는 메모리 병목 현상을 극복하기 위한 3D 스택형 AI 칩 아키텍처의 효율성을 탐구하는 내용을 다룹니다. 저자들은 LLM 추론에 특화된 빠르고 컴파일러 인식(end-to-end) 시뮬레이션 프레임워크인 Voxel을 개발했습니다. Voxel은 소프트웨어와 하드웨어를 통합적으로 분석하여, 컴퓨팅 패러다임부터 메모리 매핑 전략, NoC 토폴로지, 에너지 제약 조건에 이르기까지 다양한 요소들이 3D 스택형 AI 칩의 최종 효율성에 어떻게 기여하는지 심층적으로 보여줍니다.

3d-stacked-aillm-inferencechip-architecture

TetrisG-SDK: 적응형 윈도우 및 그룹별 합성곱을 활용한 효율적인 컨볼루션 레이어 매핑과 빠른 인메모리 컴퓨팅

TetrisG-SDK는 적응형 윈도우와 그룹별 합성곱을 활용하여 Compute-in-Memory (CIM) 하드웨어에서 컨볼루션 레이어 매핑의 효율성을 극대화하는 새로운 프레임워크입니다. 기존 방법론이 단일 CIM 매크오에만 초점을 맞춘 한계를 넘어, TetrisG-SDK는 여러 매크오 간 병렬성을 활용하여 컴퓨팅 지연 시간을 획기적으로 줄입니다. 이 프레임워크는 검증된 시뮬레이터를 통해 시스템 수준에서 속도 향상뿐 아니라 에너지 및 면적 효율성까지 입증하며, 다양한 CNN 모델에 걸쳐 우수한 성능을 보여주었습니다.

compute-in-memoryconvolutional-layershardware-acceleration

AMMA: 저지연 1M 컨텍스트 어텐션 서빙을 위한 멀티 칩렛 메모리 중심 아키텍처

본 기술 기사는 LLM 서빙의 주요 병목 현상인 메모리 바운드 어텐션 지연 문제를 해결하기 위해 'AMMA(Attention Memory-centric Multi-chiplet Architecture)'라는 새로운 아키텍처를 제안합니다. 기존 시스템이 GPU 컴퓨팅에 초점을 맞추어 메모리 중심 워크로드와 불일치했던 점을 개선하고자, AMMA는 GPU 컴퓨팅 다이를 HBM-PNM 큐브로 대체하여 메모리 대역폭을 극대화했습니다. 이를 통해 어텐션 지연 시간을 획기적으로 줄이고 에너지 효율성을 높여, 장문 컨텍스트(1M 토큰)를 처리하는 LLM 서빙에 최적화된 솔루션을 제공합니다.

llm-servingattention-mechanismmemory-centric

MPS 와 MIG 기술을 활용한 GPU 공간 공동 실행에 대한 종합 평가

본 기사는 GPU 자원 활용도를 높이기 위한 공간 공유 기술인 NVIDIA의 MPS와 MIG를 비교 평가합니다. 연구 결과에 따르면, MPS는 프로비저닝 옵션을 통해 최대 30%의 성능 향상과 에너지 절감을 제공할 수 있지만, 메모리 경쟁 상황에서는 심각한 성능 저하(약 30% 악화)를 겪을 수 있습니다. 반면, MIG는 완전한 하드웨어 격리를 통해 일관된 개선을 보장하지만, 높은 오버헤드와 유연성 부족으로 인해 특정 시나리오에서 성능 저하가 발생할 수 있다는 트레이드오프를 제시합니다.

gpu-accelerationspatial-sharingnvidia-mps

RCW-CIM: 읽기 - 계산/쓰기를 기반으로 한 디지털 CIM 기반 대규모 언어 모델 가속기

본 논문은 대규모 언어 모델(LLM) 가속화를 위해 읽기-계산/쓰기(RCW) 아키텍처를 기반으로 한 디지털 CIM(DCIM)을 제안합니다. 이 RCW-CIM은 기존 CIM의 가중치 업데이트 지연 시간 문제를 해결하고, 비선형 연산자 융합 및 WS-OCS 데이터플로우를 결합하여 LLM 추론의 전반적인 지연 시간을 크게 줄였습니다. 실험 결과, Llama2-7B 모델에서 디코딩 단계는 21.59%, 프리필 단계는 49.76%까지 지연 시간이 감소했으며, 높은 에너지 효율성(42.3 TOPS/W)을 입증했습니다.

llmacceleratordcim

VitaLLM: 의존성 인식 스케줄링을 갖춘 다목적 초소형 3가치 LLM 가속기

VitaLLM은 자원 제약이 있는 엣지 디바이스에서 대규모 언어 모델(LLMs)을 효율적으로 구동하기 위한 전용 하드웨어-소프트웨어 공동 설계 가속기입니다. 이 아키텍처는 3가치 양자화 LLM의 계산 및 대역폭 병목 현상을 해결하기 위해 TINT-Core와 BoothFlex-Core를 결합한 이종 코어 전략을 사용합니다. 특히, 의존성 인식 스케줄링(Dependency-Aware Scheduling)과 Key-Value 캐시 최적화 메커니즘을 도입하여 전력 효율성과 처리량을 극대화했습니다.

llmacceleratorquantization

HAVEN: LLMs 를 활용한 UVM 테스트벤치 합성용 하이브리드 자동 검증 엔진

HAVEN은 대형 언어 모델(LLMs)의 한계를 극복하고 UVM 테스트벤치를 합성하기 위해 제안된 하이브리드 자동 검증 엔진입니다. 기존 LLM이 HDL 코드 생성에 어려움을 겪는 문제를 해결하기 위해, HAVEN은 설계 사양 분석을 위한 LLM 에이전트와 사전 정의된 템플릿 및 프로토콜 인식 DSL(Domain-Specific Language)을 결합합니다. 이를 통해 UVM 구성 요소와 시퀀스를 높은 정확도와 커버리지로 자동 생성하며, 기존 시스템 대비 최신 상태(SOTA)의 성능을 입증했습니다.

uvmllmshardware-verification

Affinity Tailor: 대규모 환경에서의 동적 로컬리티 인식 스케줄링

Affinity Tailor는 대규모 멀티코어 시스템에서 워크로드의 공간적 로컬리티를 보존하는 새로운 커널 스케줄링 시스템입니다. 기존 스케줄러들이 CPU 자원을 균등하게 분배하여 로드 밸런싱을 수행할 때, 이는 캐시 및 예측기 재사용성을 떨어뜨리고 코어 간 간섭을 증가시키는 문제를 야기합니다. Affinity Tailor는 사용자 공간 컨트롤러가 워크로드의 수요를 추정하고 최적의 CPU 세트를 '애피니티 힌트'로 할당하며, 커널은 이 힌트를 사용하여 로컬리티를 유지하면서도 유연하게 자원을 활용할 수 있도록 합니다.

schedulinglocalitymulticore

CuLifter: GPU 바이너리를 타입화된 IR 로 변환하기

CuLifter는 GPU 컴파일러가 타입 정보를 제거하는 문제에 대응하여 개발된 SASS-to-LLVM IR 리프팅 프레임워크입니다. 이 도구는 제약 조건 전파와 충돌 감지 같은 기술을 사용하여 타입 없는 레지스터 파일에서 원래의 데이터 타입을 복원하고, 명시적인 제어 흐름 재구성 및 다중 명령어 패턴 집계를 수행합니다. 8개의 광범위한 벤치마크 스위트에서 CuLifter는 높은 성공률(99.98%)로 유효한 LLVM IR을 생성하며, 타입 복원 단계가 리프팅의 핵심임을 입증했습니다.

gpu-compilerllvm-irbinary-analysis

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.