본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AR 432필터 해제

arXiv논문

IMPart: 대규모 k-way 하이퍼그래프 분할을 위한 다단계 프레임워크 내 메메틱 연산의 통합

IMPart는 대규모 k-way 하이퍼그래프 분할을 위해 메메틱 연산을 단일 다단계 프레임워크의 언조립 단계에 통합한 새로운 프레임워크입니다. 기존 방식보다 실행 시간을 단축하면서도 국소 최적해를 효과적으로 탈출하여 더 높은 품질의 솔루션을 제공합니다.

1일 전0
arXiv논문

AUTOGATE: 토글링 인지(Toggling-Aware) LLM 기반 RTL 재작성을 통한 자동 클록 게이팅 (Clock Gating)

AUTOGATE는 LLM과 ML을 결합하여 RTL 설계의 동적 전력을 최적화하는 에이전트 기반 프레임워크입니다. 파형 분석과 계층적 멀티 에이전트 아키텍처를 통해 대규모 코드베이스에서도 효율적인 클록 게이팅을 수행합니다.

1일 전0
arXiv논문

재구성 가능한 컴퓨팅 챌린지: Versal AI Engine에서의 Jet Tagging을 위한 Transformer

CERN LHC의 jet tagging을 위해 AMD Versal AI Engine에 최적화된 양자화된 Transformer 구현을 제안합니다. Python 모델 설명으로부터 Vitis 그래프 코드를 자동 생성하는 재사용 가능한 소프트웨어 프레임워크를 소개합니다.

1일 전0
arXiv논문

HAMON: 장기 예측을 위한 수동형 광학 시퀀스 혼합 (Passive Optical Sequence Mixing)

HAMON은 장기 시계열 예측을 위해 학습 가능한 위상 마스크와 자유 공간 회절을 활용하는 수동형 광학 시퀀스 혼합 기술을 제안합니다. 디지털 시퀀스 혼합 레이어 없이 수동형 광학 전파만으로 예측을 수행하며, 주요 벤치마크에서 기존 디지털 베이스라인보다 우수한 성능을 입증했습니다.

3일 전0
arXiv논문

멀티 칩렛(Multi-chiplet) GPU의 GEMM 설계 공간 탐색을 위한 빠른 로컬리티 시뮬레이터

멀티 칩렛 GPU 환경에서 LLM의 GEMM 연산 시 발생하는 리모트 HBM 트래픽을 최소화하기 위한 타일 수준의 로컬리티 시뮬레이터를 제안합니다. 시뮬레이션 결과, CTA 순회 방식과 데이터 배치 전략에 따라 트래픽 차이가 극명하게 나타남을 확인했습니다.

3일 전0
arXiv논문

TPU v2에서 Ironwood까지: Google의 학습용 슈퍼컴퓨터 5세대에 걸친 아키텍처 안정성, 규모, 회복 탄력성, 전력 효율성 및

Google의 TPU v2부터 Ironwood까지 5세대에 걸친 아키텍처 진화 과정을 다룬 논문입니다. AI 워크로드 변화에 대응하는 확장성, 회복 탄력성, 전력 효율성 및 지속 가능성을 중심으로 하드웨어의 비약적인 성능 향상을 분석합니다.

3일 전0
arXiv논문

EPIC: Embodied AR 글래스의 효율적인 1인칭 시점 인지(Egocentric Perception)를 위한 시스템 프레임워크

스마트 AR 글래스의 효율적인 1인칭 시점 인지를 위한 시스템 프레임워크 EPIC을 제안합니다. 시선, 포즈, 관성 신호를 활용해 정보량이 많은 데이터만 선별적으로 처리함으로써 메모리와 에너지 소비를 획기적으로 줄이는 알고리즘-하드웨어 공동 최적화 기술을 다룹니다.

3일 전0
arXiv논문

CPU-GPU 주파수를 넘어: 엣지 추론 지연 시간 추정에서의 메모리 클록 및 테일 효과

NVIDIA Jetson Orin Nano를 대상으로 엣지 ML 추론 지연 시간 추정 시 CPU/GPU 주파수 외에 메모리 클록과 테일 효과가 미치는 영향을 분석한 연구입니다. 메모리 클록의 중요성과 미스율의 클러스터링 현상, 그리고 주파수 전환 시 발생하는 지연 시간을 규명했습니다.

3일 전0
arXiv논문

AIA: 16nm 공정 기반의 이산 샘플링 워크로드를 위한 맞춤형 멀티코어 RISC-V SoC

MCMC 기법의 높은 계산 비용과 병렬화 문제를 해결하기 위해 Intel 16nm 공정으로 설계된 맞춤형 RISC-V SoC인 AIA를 제안합니다. AIA는 16개의 맞춤형 RISC-V 코어와 2D 메시 구조를 통해 에지 디바이스에서 효율적인 근사 추론을 지원합니다.

3일 전0
arXiv논문

증명이 하드웨어를 만날 때: 영지식 시스템에서의 NTT와 SumCheck 비교

영지식 증명(ZKP)의 핵심 구성 요소인 NTT와 SumCheck 프로토콜을 하드웨어-시스템 수준에서 비교 분석한 연구입니다. 두 방식의 연산 효율성과 하드웨어 가속기 설계 시의 트레이드오프를 통합 아키텍처 프레임워크를 통해 규명했습니다.

3일 전0
arXiv논문

AIA: 비정규화 Knuth-Yao 샘플링 및 코어 간 레지스터 공유를 활용한 근사 추론 가속을 위한 16nm 멀티코어 SoC

확률적 그래픽 모델(PGM)의 MCMC 알고리즘을 가속하기 위한 16nm 멀티코어 SoC인 AIA를 제안합니다. 비정규화 Knuth-Yao 샘플링과 코어 간 레지스터 공유를 통해 기존 가속기 대비 속도와 에너지 효율을 대폭 향상했습니다.

3일 전0
arXiv논문

Embedded Arena: 하드웨어 피드백을 통한 반복적 최적화

임베디드 장치의 물리적 제약을 극복하기 위해 하드웨어 피드백을 활용하는 'Hardware-in-the-loop' 에이전트 프레임워크를 소개합니다. LLM 에이전트가 실제 하드웨어에서 컴파일과 측정을 반복하며 모델과 펌웨어를 자율적으로 최적화합니다.

3일 전0
arXiv논문

MPX: 행렬 및 다항식 곱셈을 위한 통합 시스톨릭 어레이 (Systolic Array)

MPX는 행렬 곱셈과 다항식 곱셈을 하나의 하드웨어 패브릭에서 모두 지원하는 이중 모드 시스톨릭 어레이 설계입니다. 기존 AI 하드웨어의 웨이브프런트 데이터플로우를 활용하여 암호화 워크로드(FHE, PQC)를 효율적으로 처리합니다.

3일 전0
arXiv논문

NeuronFabric: 로컬 Adam을 이용한 온칩(On-Chip) Transformer 학습을 위한 소프트웨어 참조 아키텍처

NeuronFabric은 온칩(On-Chip) Transformer 학습을 위해 로컬 Adam 업데이트를 지원하는 소프트웨어 참조 아키텍처입니다. BF16W 구성을 통해 메모리 요구 사항을 줄여 FPGA 및 ASIC 구현에 최적화된 구조를 제안합니다.

3일 전0
arXiv논문

TreeGRNG: 효율적인 확률론적 AI 하드웨어를 위한 이진 트리 가우시안 난수 생성기 (Binary Tree Gaussian Random

베이지안 신경망의 엣지 환경 추론을 위해 산술 연산 대신 상수 비교기를 사용하는 혁신적인 이진 트리 가우시안 난수 생성기(TreeGRNG)를 제안합니다. 기존 방식 대비 에너지 효율과 처리량을 획기적으로 높였으며, 확률 분포의 유연한 조정이 가능합니다.

3일 전0
arXiv논문

델타 인지 학습을 향하여: 자원 제한적인 FPGA를 위한 효율적인 DNN 가중치 저장 방식

자원 제한적인 FPGA 환경에서 DNN 배포를 위해 가중치를 델타(deltas) 형태로 저장하는 효율적인 압축 기술을 제안합니다. 고정 참조 델타 방식을 통해 메모리 사용량을 약 50% 절감하면서도 준수한 정확도를 유지하는 하드웨어 가속기 성능을 입증했습니다.

3일 전0
arXiv논문

DataGuard: 시스톨릭 어레이 (Systolic-array) 기반 가속기에서의 프라이버시 보호 학습 보장

DataGuard는 시스톨릭 어레이 기반 가속기에서 차분 프라이버시(DP)와 연합 학습(FL)을 결합하여 하드웨어 수준에서 프라이버시를 보호하는 메커니즘을 제안합니다. 제3자 애플리케이션을 신뢰하지 않고도 설정된 프라이버시 예산을 초과하지 않도록 보장하며, 매우 낮은 면적 및 성능 오버헤드를 입증했습니다.

3일 전0
arXiv논문

NYU Ultracomputer에서 현대적 엑사스케일(Exascale)까지: 인네트워크 컴퓨팅(In-Network Computing) 및 확장

NYU Ultracomputer부터 현대 엑사스케일 시스템까지, 병렬 컴퓨팅 아키텍처와 네트워크 기술의 진화를 다룹니다. 인네트워크 컴퓨팅, 메시지 패싱, 하드웨어 동기화 메커니즘의 역사적 변천과 현대 딥러닝 하드웨어 매핑을 심도 있게 분석합니다.

3일 전0
arXiv논문

Architecture Carbon Tool v3: 지속 가능성을 고려한 실리콘 시스템 설계 탐색 지원

지속 가능한 실리콘 시스템 설계를 지원하는 Architecture Carbon Tool v3(ACT3)를 소개합니다. ACT3는 탄소 비용을 고려한 설계 공간 탐색을 위해 강화된 모델링 기능과 분석 텔레메트리를 제공하는 확장 가능한 플랫폼입니다.

3일 전0
arXiv논문

실시간 예측을 위한 강유전체 컴퓨팅 인 메모리(compute-in-memory) 기반 신경 동역학 시스템

강유전체 컴퓨팅 인 메모리(CIM) 기술을 활용하여 실시간 시계열 예측을 수행하는 아날로그 뉴로모픽 시스템 FerroNDS를 소개합니다. 이 시스템은 페로다이오드를 기반으로 연속 시간 동역학을 효과적으로 처리하며, 기존 디지털 시스템 대비 면적과 에너지 효율을 크게 개선했습니다.

3일 전0

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.