본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AR 432필터 해제

arXiv논문

FP8 Attention에서의 P-Cast 정밀도: Sink 유도 붕괴와 S=2^8의 최적성

FP8 Attention 연산 시 발생하는 정밀도 저하 문제인 'P-붕괴' 현상을 분석하고, 이를 해결하기 위한 역방향 반복 방식과 최적의 정적 스케일링 인자(S=256)를 제안합니다. 해당 최적화는 FlashAttention-3/4에 적용되어 성능을 입증했습니다.

6월 8일0
arXiv논문

DxPTA: 광학 데이터플로우 (Optical Dataflow) 가이드 전략을 통한 광학 트랜스포머 가속기 (Photonic

Transformer 모델의 효율적인 가속을 위해 광학 트랜스포머 가속기(PTA)의 하드웨어/소프트웨어 공동 설계를 지원하는 DxPTA 방법론을 제안합니다. DxPTA는 제약 조건을 고려한 설계 공간 탐색을 통해 기존 방식보다 15.2배 빠른 탐색 속도와 최적화된 아키텍처를 제공합니다.

6월 8일0
arXiv논문

저전력 에지 효율적 신경망을 위한 NVFP4 추론에서의 블록 크기, 가중치 정밀도 및 스케일 정밀도에 관한 절제 연구 (Ablation

에너지 효율적인 에지 추론을 위해 LUT 기반의 NVFP4 프레임워크를 제안하는 연구입니다. 4비트 활성화 함수와 2단계 스케일링을 결합하여 정확도를 유지하면서도 하드웨어 에너지 소비를 획기적으로 줄이는 방법을 다룹니다.

6월 8일0
arXiv논문

MailoHLS: Pareto 기반 HLS Pragma 최적화를 위한 Multi-Adapter 구조 인식 학습

MailoHLS는 HLS Pragma 최적화를 위해 LLM의 의미론적 추론과 GNN의 구조적 모델링을 결합한 하이브리드 프레임워크입니다. Pareto 기반 최적화와 LoRA 어댑터를 통해 코드 구조와 설계 트레이드오프를 동시에 고려하여 고성능 FPGA 설계를 생성합니다.

6월 8일0
arXiv논문

RTLScout: 효율적인 디지털 회로를 위한 에이전트 기반 코드 및 합성 최적화 결합 방식

RTLScout는 LLM 에이전트와 회로 합성 최적화를 결합하여 디지털 회로 설계를 자동화하는 자율 시스템입니다. PPA 피드백을 기반으로 RTL 코드를 반복적으로 개선하며, 실험 결과 상용 도구보다 우수한 면적 및 지연 시간 성능을 달성했습니다.

6월 8일0
arXiv논문

Terastal: 이기종 가속기 상의 실시간 멀티-DNN 워크로드를 위한 레이어 변형 기반 스케줄링

이기종 DNN 가속기 환경에서 실시간 멀티-DNN 워크로드의 마감 시간 미준수 문제를 해결하기 위한 Terastal 프레임워크를 제안합니다. 레이어 변형(layer variants) 기술을 도입하여 가속기 간 지연 시간 격차를 줄이고 스케줄링 효율을 최적화합니다.

6월 8일0
arXiv논문

지속성 메모리 풀링을 위한 분산 지속성 도메인 (Distributed Persistence Domain)

CXL 기반 메모리 풀링에서 발생하는 지속성 지연 시간과 확장성 문제를 해결하기 위해 분산 지속성 도메인(DPD) 모델을 제안합니다. CXL 스위치 수준에서 지속성을 지원하는 Persistent CXL Switch 아키텍처를 통해 데이터 정확성을 유지하며 성능을 크게 향상시켰습니다.

6월 8일0
arXiv논문

위험 인지형 가정용 피부 병변 스크리닝을 위한 16.3 fJ/Sample 보정 불필요 GRNG를 탑재한 65 nm 멀티모달 베이지안 추론 엔진

가정용 피부 병변 스크리닝을 위한 65nm 멀티모달 베이지안 추론 엔진을 제안합니다. Compute-in-memory 아키텍처와 보정 불필요 GRNG를 통해 온디바이스 환경에서 높은 에너지 효율과 불확실성 모델링 성능을 구현했습니다.

6월 8일0
arXiv논문

소형 위성 환경의 제약된 임베디드 플랫폼을 위한 양자화된 AI 추론 (Quantized AI Inference)

소형 위성의 제한된 임베디드 환경에서 양자화된 AI 추론 성능을 특성화하는 연구를 다룹니다. Cortex-M 플랫폼을 기준으로 임베디드 비전 워크로드의 실행 시간, 데이터 이동, 명령어 효율성을 분석하여 설계 기준점을 제시합니다.

6월 8일0
arXiv논문

추론당 11.3 nJ를 달성한 65 nm 신뢰할 수 있는 저혈당 예측 엔진

65nm 공정을 활용하여 추론당 11.3nJ의 초저전력을 달성한 저혈당 예측 엔진을 제안합니다. 확률적 결정 트리를 기반으로 한 하이브리드 아키텍처를 통해 의료 데이터의 노이즈에 강건하며 설명 가능한 엣지 AI 성능을 입증했습니다.

6월 8일0
arXiv논문

MOSAIC: 이기종 NPU를 위한 워크로드 기반 시뮬레이션 및 설계 공간 탐색 프레임워크

다양해지는 AI 모델 아키텍처에 대응하기 위해 이기종 NPU(HPU) 설계를 지원하는 MOSAIC 프레임워크를 제안합니다. MOSAIC는 타일 유형, 데이터 흐름, 특수 기능 유닛 등을 포함한 광범위한 설계 공간을 탐색하여 최적의 하드웨어 구성을 도출합니다.

6월 5일0
arXiv논문

CASS-RTL: LLM을 이용한 RTL 생성을 위한 정확도 인식 서브스페이스 스티어링 (Correctness-Aware Subspace

CASS-RTL은 LLM의 내부 어텐션 메커니즘을 활용하여 정확한 RTL 코드를 생성하는 새로운 프레임워크입니다. 모델 재학습 없이 저차원 서브스페이스 스티어링을 통해 RTL 생성의 논리적 정확도를 높입니다.

6월 5일0
arXiv논문

FQA: 비선형 활성화 함수의 하드웨어 효율적인 구간별 근사를 위한 전공간 양자화 기반 아키텍처

비선형 활성화 함수의 하드웨어 효율적인 구간별 근사를 위한 전공간 양자화 기반 아키텍처(FQA)를 제안합니다. FQA는 양자화 오차를 종합적으로 고려하여 최적 계수 범위를 탐색하며, 기존 방식 대비 면적과 전력 소모를 50% 이상 절감합니다.

6월 5일0
arXiv논문

SET: 효율적인 CUDA Graph 파이프라인을 위한 스트림-이벤트 트리거 기반 스케줄링

GPU의 호스트-디바이스 동기화 지연과 커널 스케줄링 오버헤드를 해결하기 위한 새로운 CUDA 런타임 프레임워크 SET를 제안합니다. 이벤트 체이닝과 워크 스틸링을 활용하여 하드웨어 자원 활용도를 극대화하고 메모리 안전성을 보장합니다.

6월 5일0
arXiv논문

멀티 다이(Multi-Die) FPGA 라우팅 아키텍처의 모델링, 최적화 및 탐색

본 연구는 2.5D 및 3D FPGA의 성능 향상을 위한 멀티 다이 라우팅 아키텍처 모델링 및 최적화 방법을 제안합니다. 오픈 소스 FPGA CAD 도구인 VTR을 개선하여 다이 간 연결 밀도와 지연 시간 문제를 해결하고 설계 공간을 탐색했습니다.

6월 5일0
arXiv논문

BIDENT: 효율적인 엣지 추론을 위한 이기종 연산자 수준 매핑

BIDENT는 엣지 SoC의 CPU, GPU, NPU 등 이기종 프로세싱 유닛을 활용하기 위해 연산자 수준에서 최적의 매핑을 수행하는 프레임워크입니다. 실행 특성을 기반으로 지연 시간과 에너지를 최소화하는 최단 경로 문제로 스케줄링을 공식화하여 성능을 극대화합니다.

6월 5일0
arXiv논문

Space-CIM: 열 제약이 있는 우주 플랫폼을 위한 Compute-In-Memory 가속기 구현

우주 환경의 열 제약 조건 하에서 GPU와 Compute-In-Memory(CIM) 가속기의 성능을 비교 분석한 연구입니다. 방열기 용량과 연동된 공동 설계 방법론을 통해 CIM이 GPU보다 열 분포가 균일하고 에너지 효율(TOPS/W) 면에서 우수함을 입증했습니다.

6월 5일0
arXiv논문

ITP-STDP: 온칩 SNN 학습을 위한 고유 타이밍 기반 2의 거듭제곱 학습 엔진

SNN의 온칩 학습 시 발생하는 에너지 및 하드웨어 오버헤드를 해결하기 위해 ITP-STDP 학습 엔진 아키텍처를 제안합니다. 2의 거듭제곱 기반의 고유 타이밍 방식을 통해 계산 복잡도를 획기적으로 낮추었습니다.

6월 5일0
arXiv논문

활성화 집중도: 확산 모델 아키텍처 전반에 걸친 컬럼 수준 출력 희소성 특성 분석

확산 모델의 활성화 희소성이 하드웨어 구조(systolic-array)에서 어떻게 다르게 나타나는지 분석한 연구입니다. 요소 수준의 희소성이 실제 하드웨어 효율성을 과장할 수 있음을 지적하며, 워크로드별 컬럼 수준의 특성을 체계적으로 제시합니다.

6월 4일0
arXiv논문

보청기용 임베디드 FPGA 기반 시간 영역 DNN 기반 음성 향상의 타당성 연구

보청기용 임베디드 FPGA 환경에서 SuDoRM-RF++ 아키텍처를 활용한 음성 향상 기술의 타당성을 연구했습니다. AMD-Xilinx Kria KV260을 통해 지연 시간과 전력 제약 조건 내에서의 성능을 분석했습니다.

6월 4일0

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.