Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AR 432건필터 해제
타일 기반 가속기 상의 DNN 기반 엔드투엔드(E2E) 자율 주행 시스템을 위한 격리 인지형 스케줄링 프레임워크
타일 기반 가속기에서 자율 주행 시스템(ADS)의 지연 시간 제약을 준수하기 위한 새로운 스케줄링 프레임워크 ADS-Tile을 제안합니다. 구성 가능한 격리와 탄력적 예약을 통해 DNN 재할당 비용을 최소화하고 자원 효율성을 극대화합니다.
자원 제한적 디바이스에서의 저지연 권한 확인을 위한 하이브리드 에지-클라우드 아키텍처
자원 제한적 디바이스에서 OTT 권한 확인 지연을 줄이기 위한 하이브리드 에지-클라우드 아키텍처를 제안합니다. AEC-PR 알고리즘과 로컬 캐싱을 통해 지연 시간을 95.6% 단축하고 보안성을 강화했습니다.
불확실성 인지형 항공 수색 및 구조를 위한 640 aJ 쓰기 프리(Write-Free) FeFET GRNG를 탑재한 185 TOPS/W/mm2
항공 수색 및 구조를 위해 불확실성을 인지하는 FeFET 기반 베이지안 추론 엔진을 제안합니다. 쓰기 동작을 제거한 CLT-GRNG를 통해 에너지 효율을 극대화하여 엣지 플랫폼에 최적화된 성능을 제공합니다.
현대 FPGA 장치의 DSP Primitives 내 광대역 정수 데이터패스에서의 산술 패킹 (Arithmetic Packing)
FPGA의 DSP 슬라이스 활용도를 높이기 위해 임의의 비트 너비를 가진 데이터를 동적으로 패킹하는 새로운 산술 패킹 방법을 제안합니다. DSP 내부의 pre-adder를 활용하여 행렬-벡터 곱셈 및 컨볼루션 연산에 최적화된 아키텍처를 구현했습니다.
알고리즘-하드웨어 공동 설계를 통한 양자 오류 정정용 코셋 앙상블 디코더 (Coset Ensemble Decoder for Quantum
양자 오류 정정(QEC)의 정확도와 지연 시간을 개선하기 위해 알고리즘과 하드웨어를 공동 설계한 새로운 디코더를 제안합니다. 코셋 앙상블 디코딩과 도메인 특화 아키텍처를 통해 기존 방식보다 높은 성능과 낮은 자원 소비를 달성했습니다.
자율적인 가속기 설계를 향하여: SECDA를 이용한 FPGA 가속기 생성
SECDA-DSE는 LLM을 활용하여 FPGA 기반 AI 가속기의 설계 공간 탐색(DSE)을 자동화하는 프레임워크입니다. RAG와 CoT 프롬프팅을 통해 복잡한 하드웨어 아키텍처를 생성하며, 인간의 개입을 최소화하면서도 효율적인 설계를 제안합니다.
"더 낮을수록 좋다"의 재고: 지속 가능한 데이터 센터 운영을 위한 ITD 인지형 Per-CPU 열 최적화
현대 저전압 CPU에서 온도가 낮아질수록 전압 요구량이 높아지는 역 온도 의존성(ITD) 현상을 분석합니다. Intel Xeon CPU를 통해 효율성이 정점에 도달하는 최적 온도가 기존보다 높음을 입증하며, 이를 활용한 데이터 센터 에너지 절감 방안을 제시합니다.
Heap을 극복하라: AXI4MLIR에서의 Zero-Copy 데이터 이동
AXI4MLIR 프레임워크에서 발생하는 CPU-가속기 간의 불필요한 데이터 복사 오버헤드를 해결하기 위한 제로 카피(zero-copy) 기술을 제안합니다. MLIR dialect 확장을 통해 DMA 매핑 메모리에 직접 버퍼를 할당함으로써 데이터 이동을 최적화합니다.
비트 단위 일치 준수 벡터를 포함한 84가지 형식의 수치 카탈로그: FP8, BF16, MXFP4 및 Microscaling 형식을 위한 벤더
머신러닝 하드웨어의 다양한 수치 형식(FP8, BF16, MXFP4 등) 간의 일관성을 확보하기 위한 84가지 형식의 수치 카탈로그를 제안합니다. 비트 단위로 일치하는 참조 자료를 제공하여 가속기 간 모델 이식 시 발생하는 수치적 발산 문제를 해결하고자 합니다.
저전력 엣지 AI 배포를 위한 NVFP4 양자화(Quantization)의 영향 분석
엣지 디바이스의 에너지 효율적인 추론을 위한 NVFP4 양자화 기법을 분석한 연구입니다. FP8 블록 스케일링과 FP32 텐서 스케일링을 통해 초저정밀도에서도 정확도를 유지하며, 하드웨어-소프트웨어 공동 설계의 가이드라인을 제시합니다.
초기 결함 허용 시스템을 위한 데이터 기반 경량 오류 탐지 및 하드웨어 인지형 저지연 양자 컴파일
NISQ 프로세서의 한계를 극복하기 위해 하드웨어 인지형 컴파일과 데이터 기반 양자 오류 탐지(QED)를 통합한 프레임워크를 제안합니다. 노이즈 가중치 비용 함수와 다목적 스케줄러를 통해 큐비트 매핑과 오류 탐지 오버헤드 간의 균형을 최적화합니다.
스마트 어시스턴트, 웨어러블 건강 모니터, 그리고 문맥 인식 시스템 (context-aware systems)에서 개인정보를 보호하는 개인 데이
개인정보 보호를 위해 트랜지스터 공정 변이를 활용한 65-nm 뉴로모픽 인코더를 제안합니다. 초고차원 컴퓨팅(HDC)을 통해 에너지 효율적이고 보안성이 뛰어난 에지 생체 의학 지능 하드웨어 플랫폼을 구현했습니다.
ScaleDisturb: 현대 DRAM 칩에서 읽기 방해 (Read Disturbance)를 증폭하기 위한 시간적 비대칭성 활용
DRAM의 읽기 방해(Read Disturbance) 현상을 증폭시키는 새로운 액세스 패턴인 ScaleDisturb를 제안하는 연구입니다. 공격자 행의 오픈 시간을 비대칭적으로 조절하여 기존 방식보다 적은 활성화로도 비트 플립을 유도할 수 있음을 증명했습니다.
AttentionCap: Full-Chip 추출을 위한 Transformer 기반 커패시턴스 행렬 학습
AttentionCap은 Transformer를 활용하여 첨단 공정 노드에서 커패시턴스 행렬을 학습하는 새로운 프레임워크입니다. 기존 CNN 방식보다 오차는 낮고 추론 속도는 192배 빠르며, 공정 노드 임베딩을 통해 미학습 노드에 대한 강력한 전이 학습 성능을 보여줍니다.
HLS를 통한 도메인 특화 FPGA Hardblock 프로그래밍: RTL Blackbox 접근 방식
도메인 특화 FPGA의 하드블록을 HLS 환경에서 효율적으로 프로그래밍하기 위한 새로운 방법론을 제안합니다. RTL 블랙박스를 C-레벨 연산자로 추상화하여 컴파일러 수정 없이도 하드웨어 가속기를 최적화할 수 있는 접근 방식을 다룹니다.
SRAM 기반 Compute-in-Memory를 위한 정확도 설정 가능 부동 소수점 곱셈기 설계
SRAM 기반 Compute-in-Memory(DCiM)를 위한 정확도 설정 가능 부동 소수점 곱셈기 설계를 제안합니다. 가수부 분할 기반의 근사 곱셈기를 통해 하드웨어 면적과 전력을 획기적으로 절감하면서도 높은 수치적 충실도를 유지합니다.
PALUTE: 에지 LLM 추론을 위한 룩업 테이블 기반의 프로세싱 인 메모리 (Processing-In-Memory) 가속기
에지 디바이스의 LLM 추론 효율을 높이기 위해 M3D DRAM 기반의 LUT PIM 가속기인 PALUTE를 제안합니다. LUT 조회를 통해 비선형 연산 비용을 줄이고, 수직 구조를 활용해 낮은 면적 오버헤드와 높은 병렬성을 달성했습니다.
SIFT: 어텐션 불변성(Attention Invariance)을 활용한 RAG 프리필(Prefill)의 빠른 연산을 위한 선택적 인덱스
RAG 시스템의 TTFT(첫 토큰 생성 시간) 지연 문제를 해결하기 위해 어텐션 불변성을 활용한 SIFT 기술을 제안합니다. KV 텐서를 저장하는 대신 압축된 비트 벡터를 사용하여 디스크 전송 병목을 없애고 연산 효율을 극대화합니다.
OpenOpt: 등가 회로 모델(Equivalent Circuit Model) 기반의 오픈 소스 SRAM 최적화 도구
등가 회로 모델을 활용하여 SRAM 아키텍처와 트랜지스터 크기를 동시에 최적화하는 오픈 소스 프레임워크 OpenOpt를 제안합니다. 높은 정확도를 유지하면서 시뮬레이션 속도를 최대 61.4배 향상시켰으며, 다양한 최적화 알고리즘을 통해 면적과 전력을 크게 개선했습니다.
NeuDW-CIM: 비선형 수상돌기(Nonlinear Dendrites) 및 K-Winners를 갖춘 65-nm 0.8-pJ/Sop 재구성
65nm CMOS 공정을 기반으로 한 고효율 SNN용 NeuDW-CIM 매크로를 제안합니다. 비선형 수상돌기 모드와 Top-K Winner 모드를 통해 높은 정확도와 0.8 pJ/SOP의 뛰어난 에너지 효율을 달성했습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.