Insights

임베디드 FPGA용 에너지 효율적인 LSTM 가속기 설계

본 논문은 리소스가 제한된 임베디드 환경의 Field Programmable Gate Arrays (FPGAs)에서 Long Short-term Memory Networks (LSTMs)를 구동하기 위한 새로운 하드웨어 가속기 설계를 제안합니다. 이 아키텍처는 최적화 파라미터(예: DSP 사용 여부, 활성화 함수 구현 방식)를 통해 다양한 상황에 맞게 조정 가능하며, 실제 추론 테스트에서 11.89 GOP/s/W의 에너지 효율을 달성하여 기존 대비 성능 향상과 전력 소비 감소를 입증했습니다.

lstmfpgaaccelerator

quantum computingsurface codeftqc

워크로드 인식 표면 코드 아키텍처 설계 방안

본 논문은 오류 허용 양자 컴퓨팅(Fault-Tolerant Quantum Computing, FTQC)의 높은 오버헤드 문제를 해결하기 위해 새로운 하이브리드 아키텍처를 제안합니다. 기존 설계는 빠른 로직 큐비트 접근성이나 높은 밀도 중 하나에 치중하여 트레이드오프가 발생했습니다. 저희는 데이터 큐비트를 중심으로 주변에 표면 코드 패치를 배치하고, 이를 기반으로 애플리케이션의 $T$-게이트 프로파일을 활용하는 워크로드 주도형 플래닝 방법을 도입했습니다. 이 방법은 사이클당 명령어(CPI)를 최적 영역 근처로 유지하면서 데이터 타일

llmrtl generationhardware design

ChipCraftBrain: 다중 에이전트 기반 RTL 자동 생성 프레임워크

본 논문은 자연어 명세로부터 높은 기능적 정확도를 가진 레지스터 전송 레벨(RTL) 코드를 자동으로 생성하는 새로운 프레임워크, ChipCraftBrain을 소개합니다. 기존의 단일 에이전트 모델들은 60-65% 수준에 머무르는 반면, ChipCraftBrain은 적응형 다중 에이전트 오케스트레이션과 하이브리드 심볼릭-신경 아키텍처를 결합하여 성능을 극대화했습니다. VerilogEval-Human에서 97.2%의 높은 평균 pass@1 점수를 달성했으며, 특히 NVIDIA의 CVDP와 같은 산업 표준 벤치마크에서도 기존 대비 상당한

quantum-computingerror-correctionqed

논리 큐비트용 오류 완화 및 탐지 공동 설계 방안

양자 컴퓨팅의 근접 시기 워크로드를 위해 필수적인 오류 관리가 중요합니다. 본 연구는 양자 오류 탐지(QED)와 확률적 오류 제거(PEC)라는 두 가지 핵심 기법을 결합하는 아키텍처 설계 공간에 초점을 맞춥니다. 기존에는 QED가 노이즈를 줄여주지만 잔류 오류를 남기고, PEC는 이를 소프트웨어적으로 보정하지만 비용이 크게 증가했습니다. 본 논문은 최적의 'QED 간격'을 정의하고, 나아가 초기 탐지 사이클에서 발생하는 일시적 오류가 전체 시스템 성능을 저하시키는 문제를 해결하기 위해 'steady-state extraction'과

hbamemory_systempage_migration

하이브리드 메모리 시스템의 페이지 마이그레이션 효율화 방안 (Duon)

본 논문은 HBM, DRAM, NVM 등 이종 메모리를 활용하는 하이브리드 메모리 아키텍처(HMA)의 성능 병목 현상을 해결하기 위한 'Duon'이라는 새로운 기법을 제안합니다. 기존 시스템에서 페이지 마이그레이션 시 발생하는 TLB Shootdown 및 캐시 라인 무효화 오버헤드가 주요 문제입니다. Duon은 업데이트된 매핑 정보를 Extended TLB와 Page Table에 직접 저장하여, 페이지 이동 후에도 이러한 비싼 오버헤드를 근본적으로 제거합니다. 그 결과, 기존 최고 성능 기술 대비 IPC를 3.87% 향상시키는 효과

bayescvnncomplex-valueduncertainty estimation

복소수 불확실성 추정 및 하드웨어 가속을 위한 BayesCVNN

본 논문은 복소수 값을 다루는 작업에서 예측 불확실성을 정량화할 수 있는 새로운 접근 방식인 드롭아웃 기반 베이즈 복소수 신경망(BayesCVNNs)을 제안합니다. 기존 CVNN의 한계였던 불확실성 추정 기능을 추가하고, 복소수의 이중 구조를 활용한 자동 최적화 검색 기법을 도입했습니다. 나아가, BayesCVNN을 효율적으로 구현하기 위해 FPGA 기반 가속기 프레임워크를 제시하여, GPU 대비 높은 성능 향상(최대 13배)과 낮은 전력 소모를 동시에 달성했음을 입증합니다.

4월 23일4

gpupower estimationai workloads

EnergAIzer: AI 워크로드 전력 예측을 위한 빠르고 정확한 프레임워크

데이터센터의 AI 워크로드 증가로 GPU 전력 관리가 중요해지면서, 기존의 전력 모델들은 하드웨어 활용률 입력값 확보에 어려움을 겪었습니다. 본 논문은 이러한 확장성 병목 현상을 해결하기 위해 EnergAIzer를 제안합니다. EnergAIzer는 AI 커널의 구조적 패턴을 분석하여 메모리 트래픽과 실행 타임라인 같은 활용률 입력값을 빠르고 정확하게 예측하는 경량화된 솔루션입니다. 이를 통해 전력 추정 시간을 수 시간에서 몇 초 단위로 단축하며, NVIDIA Ampere GPU에서 8%의 낮은 전력 오차를 달성했습니다. 이 프레임아

sramcache memorylow-power design

저전력 캐시를 위한 6T SRAM 기반 혁신 아키텍처 제안

본 논문은 기존의 6트랜지스터(6T) SRAM 셀을 활용하여 저전력 캐시 메모리 아키텍처를 제안합니다. 핵심 아이디어는 인접한 셀들을 컬럼 방향으로 직렬 연결(series interconnection)하는 것입니다. 이 '스태킹 효과(stacking effect)'를 이용해 특히 홀드(hold) 동작 시 발생하는 누설 전류(leakage current)를 억제함으로써, 트랜지스터 개수를 늘리지 않고도 캐시 메모리의 전력 효율을 크게 개선합니다. 시뮬레이션 결과는 제안된 아키텍처가 기존 방식 대비 낮은 누설 전력을 유지하면서 표준 6

RowHammer 완화 아키텍처: PVAC를 이용한 피해 행(Victim) 기반 카운팅

DRAM 스케일링으로 인한 RowHammer 공격 위협이 증가함에 따라, DDR5는 개별 행 활성화 카운팅(PRAC)을 도입했습니다. 하지만 PRAC는 무해한 리프레시까지 모두 카운트하여 카운터 포화 및 성능 저하를 유발하는 문제가 있습니다. 본 논문은 이러한 문제를 해결하기 위해 피해 행(Victim-row) 기반의 Per-Victim-row hAmmered Counting (PVAC)을 제안합니다. PVAC는 실제 RowHammer 메커니즘에 맞춰 카운터 증가 및 리셋 로직을 설계하여, 기존 PRAC보다 높은 내성도를 유지하면서

dramrowhammerpvac

fpgasustainable computingcarbon footprint

지속 가능한 컴퓨팅 플랫폼 비교: FPGA가 ASIC, GPU, CPU 대비 강점 분석

본 논문은 기후 변화 대응 관점에서 지속 가능한 컴퓨팅의 중요성을 강조하며, 반도체 사용 전반의 탄소 발자국 (Carbon Footprint, CFP)을 평가하는 방법론을 제시합니다. 특히 재구성 가능성(reconfigurability)이 높은 FPGA를 중심으로 GreenFPGA라는 도구를 소개하여, 설계부터 폐기까지 전체 수명 주기 동안의 CFP를 추정합니다. 실험 결과에 따르면, FPGA는 워크로드가 자주 변화하고 다양하며 생산량이 적은 (low-volume) 애플리케이션 환경에서 ASIC, GPU, CPU 대비 더 지속 가능

4월 23일4

topology_optimizationamd_versalaie_ml

AMD Versal AIE-ML 기반 CRONet 가속을 통한 저지연 위상 최적화

본 연구는 구조 건전성 모니터링과 같은 중요 인프라 분야에 필수적인 저지연 및 에너지 효율적인 위상 최적화(Topology Optimization)를 위해, 신경망 기반의 계산 방법인 CRONet을 AMD Versal AI Engine-ML (AIE-ML) 아키텍처에서 하드웨어 가속하는 방법을 제시합니다. 기존의 DNN 기반 구현은 높은 지연 시간과 낮은 에너지 효율성을 보였으나, 본 연구는 모든 중간 활성화 값(activations)과 네트워크 가중치(weights)를 온칩(on-chip)에 유지하여 DRAM 의존성을 완전히 제거

llmrtl_optimizationagentic_system

Dr.RTL: 도구 기반 자율 에이전트 시스템을 활용한 현실적인 RTL 최적화

본 논문은 대규모 언어 모델(LLMs)의 발전에도 불구하고 기존 RTL 최적화 방법론이 비현실적인 평가 환경과 제한적인 규칙에 머물러 있음을 지적하며, 이를 해결하기 위한 에이전트 프레임워크인 Dr.RTL을 제안합니다. Dr.RTL은 실제 산업 EDA 워크플로우를 모방한 현실적인 평가 환경에서 작동하며, 다중 에이전트를 통해 크리티컬 패스 분석, 병렬 RTL 재작성 등을 수행하고, '그룹 상대 스킬 학습(group-relative skill learning)'을 도입하여 최적화 경험을 해석 가능한 스킬 라이브러리로 축적합니다. 20

arXiv속보논문

LLM 기반 자율 진화형 EDA 툴: ABC 자동 개선 프레임워크

본 논문은 대규모 언어 모델(LLM) 에이전트를 활용하여 기존의 대표적인 로직 합성 시스템인 extsc{ABC} 코드를 자율적으로 개선하는 최초의 '자체 진화형' 프레임워크를 소개합니다. 이 시스템은 ABC 전체 코드베이스에 작용하며, 사람이 수동으로 휴리스틱을 주입하지 않고도 반복적인 평가 루프(QoR 기반)와 LLM 에이전트의 코딩 가이드(programming guidance)를 통해 최적화됩니다. ISCAS 등 다수의 벤치마크에서 검증된 이 프레임워크는 EDA 도구의 성능을 인간 설계 범위를 넘어선 새로운 합성 전략을 스스로

llmedalogic synthesis

smartnicstream computingdatacenter

SCENIC: 스트림 컴퓨팅 기반 차세대 SmartNIC 아키텍처

AI 데이터센터의 핵심 인프라인 SmartNIC는 현재 상용 제품과 연구 프로토타입 간에 성능 및 유연성 격차를 겪고 있습니다. 본 논문에서 제안하는 SCENIC은 이 문제를 해결하기 위해 NIC 데이터패스를 '1급 스트림 컴퓨팅 기판'으로 접근합니다. SCENIC은 200G 네트워크 데이터패스, 온-데이터패스 Stream Compute Units (SCUs), 그리고 유연한 제어 경로를 위한 임베디드 ARM 코어를 결합하여 설계되었습니다. 이는 기존 애플리케이션에 투명하게 통합되면서도 사용자 정의 오프로드를 구현하고 프로그래밍이민

photoacoustic imagingoptek phocusverasonics vantage

오픈소스 기반 실시간 다중 스펙트럼 광음향 이미징 시스템 구축

본 논문은 실시간 다중 스펙트럼 광음향 이미징(RT-mPAI) 시스템의 주요 난제인 동기화 불안정성을 해결하기 위한 오픈소스 하드웨어-소프트웨어 아키텍처를 제시합니다. OPOTEK Phocus 레이저와 Verasonics Vantage 데이터 획득 장비를 결합하는 이 시스템은 독립형 마이크로컨트롤러를 사용하여 결정론적(deterministic) 레이저 트리거 카운팅을 수행하고, 클라이언트-서버 데이터 스트리밍 프레임워크를 분리하여 운영체제(OS)의 타이밍 오차와 로컬 저장소 병목 현상을 우회합니다. 이 오픈소스 파이프라인 공유를 목

datacenterpower electronicsai hardware

데이터센터 대규모 AI 학습 부하의 전력 변동 완화 기술: EasyRider

대규모 AI 모델 훈련 워크로드는 GPU 수천 개가 동기식 루프를 돌며 작동하므로, 시작/종료 및 체크포인팅 과정에서 전력 소비가 급격히 변동합니다. 이러한 큰 부하 스윙은 그리드 인프라에 과도한 스트레스(급격한 전력 램프율, 전압/주파수 변화)를 주어 변압기나 컨버터 손상을 유발할 수 있습니다. 본 논문에서 제안하는 EasyRider는 패시브 부품과 능동 제어 보조 에너지 저장 시스템을 활용하여 랙 레벨의 전력 변동을 완화합니다. 이는 AI 프레임워크 수정 없이 그리드 안전 기준을 충족시키며, 실제 프로토타입 테스트를 통해 그 효

hardware verificationllmagentic framework

Spec2Cov: LLM 기반 디지털 하드웨어 검증 자동화 프레임워크

디지털 하드웨어 설계의 핵심 단계인 검증(Verification)은 높은 시간과 자원을 요구하며, 커버리지 클로저(Coverage Closure) 과정이 수동적이고 비효율적이라는 문제가 있습니다. 본 논문에서 제안하는 Spec2Cov는 대규모 언어 모델(LLM)을 활용한 에이전트 프레임워크입니다. Spec2Cov는 설계 명세서(design specifications)로부터 테스트 자극(test stimulus)을 자동으로 생성하고, LLM과 하드웨어 시뮬레이터를 연동하여 컴파일 및 시뮬레이션 오류를 관리하며 커버리지 보고서를 분석해

neuro-symbolicai hardwarellm acceleration

Overmind: 신경-기호 통합 아키텍처로 AI 성능 혁신

본 논문은 대규모 언어 모델(LLM)과 자율 시스템 등에서 중요성이 커지고 있는 신경-기호 AI (Neuro-Symbolic AI)의 하드웨어 구현 한계를 극복하기 위한 새로운 통합 아키텍처 'Overmind'를 제안합니다. Overmind는 비선형 활성화 함수에 Padé 근사(Padé approximations) 기법을 적용하고, 비용이 많이 드는 온칩 캐시를 우회하는 사전 예방적 메모리 바이패스(preemptive memory bypass) 기능을 도입했습니다. 이를 통해 기존 플랫폼의 높은 전력 소모와 낮은 효율성 문제를 해결

HYPERHEURIST: LLM 기반 하드웨어 설계 최적화를 위한 시뮬레이티드 어닐링 프레임워크

LLM을 활용한 레지스터 전송 레벨(RTL) 하드웨어 설계는 가능성을 보여주었으나, 단일 생성 방식으로는 기능적 정확성과 전력 효율성 최적화가 어렵습니다. 본 논문은 시뮬레이티드 어닐링 (Simulated Annealing) 기반의 제어 프레임워크인 HYPERHEURIST를 제안합니다. 이 시스템은 LLM이 생성한 RTL을 최종 결과물이 아닌 중간 후보군으로 간주하고, 기능 검증(compilation, structural checks, simulation)을 거친 후 PPA (Power-Performance-Area) 최적화를 단계

llmhardware designrtl