Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

XL-HD: 인메모리 가속기를 위한 결정론적 투영 기반의 초차원 컴퓨팅 확장 학습

XL-HD는 엣지 컴퓨팅을 위한 결정론적 투영 기반의 초차원 컴퓨팅(HDC) 학습 프레임워크입니다. Sobol 수열을 활용해 학습 가능성을 확장하고, ReRAM 기반 인메모리 컴퓨팅(IMC) 하드웨어에 최적화된 이진 추론 파이프라인을 제공합니다.

5월 26일0

arXiv논문

ZK-Tracer: 영지식 VM 트레이스 생성을 위한 고성능 이기종 가속기

zkVM의 성능 병목인 트레이스 생성 단계를 해결하기 위한 이기종 가속기 아키텍처 ZK-Tracer를 제안합니다. 메인 및 병렬 치환 트레이스 유닛을 통해 효율적인 작업 오프로딩을 지원하며, ASIC 구현 결과 CPU 대비 압도적인 성능 향상을 입증했습니다.

5월 26일0

arXiv논문

고급 근접 주소 지정 모드 (near addressing modes)를 통한 코드 크기 감소

실시간 제어 시스템의 방대한 전역 변수 처리를 위해 RISC-V ISA에 근접 주소 지정 모드(near addressing modes)를 도입하는 방안을 연구합니다. 이를 통해 코드 크기를 줄이고 성능을 향상시키는 다양한 변형 방식을 제안하고 워크로드로 검증합니다.

5월 26일0

arXiv논문

Processing-in-Memory를 위한 십억 규모의 그래프 기반 근사 최근접 이웃 탐색 공동 설계

대규모 그래프 기반 근사 최근접 이웃 탐색(ANNS)을 위한 PIM(Processing-in-Memory) 알고리즘-아키텍처 공동 설계 연구를 소개합니다. 압축 레이아웃, 비동기 스케줄러, 곱셈 없는 커널을 통해 기존 CPU/GPU 대비 압도적인 처리량 향상을 달实现했습니다.

5월 26일0

arXiv논문

유한체 암호학(Finite-Field Cryptography)에서 클라우드 TPU의 아키텍처적 한계

유한체 암호학 연산 시 클라우드 TPU가 GPU 대비 심각한 비용 효율성 결손을 보임을 실증적으로 분석했습니다. 이는 광범위 정수 ALU의 부재와 공간적 페널티로 인해 AI 최적화 시스톨릭 어레이가 필드 산술에 부적합함을 시사합니다.

5월 26일0

arXiv논문

DiSC: 해시 기반 분산을 통한 희소성 및 캐시된 토큰 재사용 활용 기반 확산 모델(Diffusion Models)의 해상도 확장 가능한

Transformer 기반 확산 모델의 연산 오버헤드를 줄이기 위해 해시 기반 분산 기술을 활용한 DiSC를 제안합니다. CTR과 ST 알고리즘을 통해 토큰 재사용 및 희소성을 극대화하며, 하드웨어 가속기 설계를 통해 고해상도 생성 효율을 높였습니다.

5월 26일0

arXiv논문

RouteScan: 전문가 라우팅 텔레메트리(Expert Routing Telemetry)를 통한 MoE LLM 안전성 감사의 비침습적 접근

MoE 모델의 전문가 라우팅 패턴을 GPU 텔레메트리로 분석하여 유해성을 탐지하는 비침습적 감사 프레임워크 RouteScan을 제안합니다. 이 방식은 프롬프트 내용에 직접 접근하지 않고도 높은 정확도로 악의적 입력을 식별하며 개인정보 보호 성능도 우수합니다.

5월 26일0

arXiv논문

오버레이(Overlay)인가 커스텀(Customize)인가? 이기종 시스템에서의 아키텍처 선택 재고

자율 주행 시나리오를 바탕으로 이기종 시스템에서의 오버레이와 커스텀 가속 아키텍처 간의 트레이드오프를 분석합니다. 워크로드 변동과 재구성 지연 시간 등 실제 조건을 고려하여 최적의 배포 전략을 제시합니다.

5월 25일0

arXiv논문

DAE4HLS: 명시적 디커플링을 통한 고수준 합성 (High-Level Synthesis)의 메모리 수준 병렬성 (Memory-Level

DAE4HLS는 고수준 합성(HLS)에서 메모리 수준 병렬성을 극대화하기 위해 요청과 응답을 명시적으로 분리하는 새로운 프로그래밍 모델을 제안합니다. 이를 통해 기존 HLS가 처리하기 어려웠던 복잡한 메모리 접근 패턴을 가진 대규모 데이터셋 워크로드의 성능을 획기적으로 개선합니다.

5월 25일0

arXiv논문

ACALSim: 고성능 시스템 설계 공간 탐색을 위한 확장 가능한 병렬 시뮬레이션 프레임워크

ACALSim은 현대 GPU 및 AI 가속기 설계를 위한 확장 가능한 병렬 시뮬레이션 프레임워크입니다. 플러그형 스레드 관리와 공유 메모리 모델을 통해 기존 SST 대비 14배 이상의 속도 향상과 낮은 메모리 사용량을 달성했습니다.

5월 25일0

arXiv논문

MASQ: 단계별 다중 정밀도 양자화를 통한 Masked Diffusion 가속화

Masked Diffusion 모델의 계산 중복 문제를 해결하기 위해 하드웨어-소프트웨어 공동 설계 가속기인 MASQ를 제안합니다. 단계별 다중 정밀도 양자화와 타임스텝 인지 스케줄링을 통해 이미지 품질을 유지하며 연산 속도와 에너지 효율을 대폭 향상했습니다.

5월 25일0

arXiv논문

UniSpike: 주소 중복 제거를 통한 뉴로모픽 시스템에서의 스파이킹 신경망 (SNN) 가속화

UniSpike는 뉴로모픽 시스템에서 SNN 가속 시 발생하는 패킷 기반 스파이크 통신의 주소 중복 문제를 해결하는 하드웨어-소프트웨어 공동 설계 방식입니다. 목적지 중심 스케줄링과 패킷 조립 기술을 통해 트래픽을 줄이고 에너지 효율을 높입니다.

5월 25일0

arXiv논문

NASiC: 효율적인 온디바이스 Mixture-of-Experts LLM 추론을 위한 3D NAND 기반 CAM 선택형 멀티비트 CIM 아키텍처

MoE 모델의 온디바이스 배포를 위해 3D NAND 기반의 새로운 CIM 아키텍처인 NASiC을 제안합니다. CAM 기반 마스킹과 멀티비트 CIM 셀을 결합하여 동적 전문가 선택과 계산을 통합함으로써 에너지 효율과 처리량을 획기적으로 개선했습니다.

5월 25일1

arXiv논문

DORA: DNN 가속을 위한 데이터플로우-명령어 오케스트레이션 아키텍처

DORA는 복잡한 DNN 워크로드의 효율성을 높이기 위해 데이터플로우를 명시적으로 제어하는 명령어 기반 오버레이 아키텍처입니다. 새로운 메모리 및 병렬성 관리 메커니즘을 통해 다양한 모델에서도 안정적인 성능을 유지하며, 기존 가속기 대비 최대 5배의 처리량 향상을 입증했습니다.

5월 25일0

arXiv논문

상온 및 극저온 온도에서의 차세대 메모리 기술

전통적인 기술 스케일링의 한계를 극복하기 위한 상온 및 극저온 환경의 차세대 메모리 기술을 다룹니다. SRAM, DRAM부터 RRAM, MRAM, FeFET 및 극저온용 JJFET까지 다양한 메모리 소자의 작동 원리와 트레이드오프를 분석합니다.

5월 22일3

arXiv논문

NasZip: DIMM 기반 근접 데이터 처리 (Near-Data Processing)를 통한 근사 최근접 이웃 탐색 (ANNS) 가속을 위한

RAG의 핵심인 ANNS 성능을 높이기 위해 DIMM 기반 근접 데이터 처리(NDP)와 PCA 기반 조기 종료 기술을 결합한 NASZIP 프레임워크를 제안합니다. 하드웨어와 소프트웨어의 공동 설계를 통해 메모리 대역폭 제한 문제를 해결하고 검색 속도를 획기적으로 개선했습니다.

5월 22일1

arXiv논문

ORBIS: 비디오 확산 모델 가속을 위한 분포 인식 매칭 기반 출력 가이드 토큰 감소 기술

비디오 Diffusion Transformer(DiT)의 계산 비용을 줄이기 위해 제안된 ORBIS 기술을 소개합니다. 분포 인식 매칭(DATM) 알고리즘과 SW-HW 공동 설계 가속기를 통해 토큰 감소율을 높이고 에너지 효율을 극대화했습니다.

5월 22일1

arXiv논문

CompPow: 컴포넌트 수준의 GPU 전력 관리의 필요성

본 연구는 GPU 내부의 개별 컴포넌트 단위로 전력을 관리하는 'CompPow' 방식의 필요성을 제기합니다. 데이터 센터 수준의 최적화를 넘어 컴포넌트 인식 기반의 관리를 통해 에너지 효율을 10%, 성능을 5% 향상시킬 수 있음을 입증했습니다.

5월 22일1

arXiv논문

런타임 재구성 가능 프로세서를 위한 동적 제어 흐름 실행 지원

본 연구는 기존 하드웨어 가속기의 공간 효율성 문제를 해결하기 위해 런타임 중에 가속기를 교체할 수 있는 재구성 가능 프로세서(Reconfigurable processors)를 제안합니다. 특히 마이크로코드 실행 시 루프, 조건부 점프, 예외 처리와 같은 동적 제어 흐름을 지원하는 기술을 소개합니다. 다양한 도메인의 벤치마크를 통해 범용 프로세서 대비 상당한 성능 향상을 입증하였습니다.

5월 21일0

arXiv논문

ELSA: 효율적인 뉴로모픽 컴퓨팅을 위한 탄력적 SNN 추론 아키텍처

ELSA는 SNN(Spiking Neural Networks)의 탄력적 추론 특성을 극대화하기 위해 설계된 near-SRAM 데이터플로우 아키텍처입니다. 기존 가속기들이 레이어 단위로 동작하여 응답 지연이 발생하는 문제를 해결하기 위해, 미세한 스파인/토큰 단위의 파이프라인과 최적화된 통신 프로토콜을 도입했습니다. 이를 통해 정확도를 유지하면서도 기존 SOTA 가속기 대비 비약적인 속도 및 에너지 효율 향상을 달성했습니다.

5월 21일1

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드