Insights

AnalogMaster: 이미지에서 레이아웃까지의 대규모 언어 모델을 기반으로 한 자동 아날로그 IC 설계 프레임워크

AnalogMaster는 이미지 기반 회로도에서 네트리스트 생성부터 파라미터 최적화, 배치 및 라우팅까지 아날로그 집적 회로(IC) 설계의 전체 과정을 자동화하는 LLM 기반 프레임워크입니다. 기존 방법론들이 개별 단계에만 초점을 맞추고 수동 개입이 필요했던 한계를 극복하며, 컨텍스트 학습과 의도 추론을 활용하여 정확한 네트리스트 변환을 수행합니다. 이 프레임워크는 자기 강화 프롬프트 엔지니어링 등을 통해 아날로그 IC 설계의 엔드투엔드 자동화에 실용적인 패러다임을 제시하며 높은 성능을 입증했습니다.

4월 27일10

VerilogCL: LLM 기반 Verilog 코드 생성을 위한 대조 학습 프레임워크

본 논문은 하드웨어 기술 언어(HDL)인 Verilog 코드를 생성하는 대규모 언어 모델(LLMs)의 신뢰성 문제를 해결하기 위해 'VerilogCL'이라는 통합 프레임워크를 제안합니다. 기존 LLM이 Verilog 코드 생성을 어려워하는 주된 이유는 고품질 학습 데이터 부족과 생성된 코드의 높은 오류율 때문입니다. VerilogCL은 대조 학습(Contrastive Learning)을 활용하여 올바른 RTL(Register-Transfer Level)과 미세하게 변형된 오류 코드를 쌍으로 학습시킵니다. 이를 통해 모델이 정확한 경

4월 26일12

그래프 애플리케이션을 위한 분기 예측기 최적화 방안

대규모 그래프 애플리케이션에서 메모리 계층 구조(memory hierarchy)는 주요 병목 지점입니다. 기존 연구들이 캐시 개선에 초점을 맞췄지만, 본 논문은 분기 예측 정확도 향상을 통해 성능을 높일 수 있는 새로운 기회를 제시합니다. 특히 그래프 처리 과정에서 발생하는 빈번한 분기 오예측(branch mispredictions)은 전체 성능의 주요 제한 요인입니다. 따라서 다양한 유형의 브랜치를 포착하는 기존 분기 예측기(BP)를 넘어, 오예측을 유발하는 특정 브랜치에 특화된 최적화가 필요합니다.

4월 23일9

LLM 기반 에이전트로 2.5D/3D 칩렛 시스템 최적화하는 방법 (CHICO-Agent)

대규모 언어 모델(LLMs)의 발전으로 인해 단일 실리콘 설계가 한계에 도달하면서, 2.5D 및 3D 칩렛 시스템 채택이 가속화되고 있습니다. 그러나 이로 인해 애플리케이션부터 패키징까지 여러 계층에 걸친 복잡한 공동 설계를 요구하며, 이는 지연 시간(latency), 에너지, 면적, 비용 등 다양한 트레이드오프를 가진 거대한 조합 공간을 만듭니다. 본 논문은 이러한 문제를 해결하기 위해 LLM 기반 최적화 프레임워크인 CHICO-Agent를 제안합니다. CHICO-Agent는 지속적인 지식 기반(knowledge base)을 유지

PPA 기반 3D-IC 파티셔닝 최적화 프레임워크 (DOPP)

기존의 3D-IC netlist 파티셔닝은 근사 지표(proxy objectives)를 사용하여 최적화를 수행하고, 최종 성능 지표(PPA)는 비용이 많이 드는 평가 과정으로 취급되어 이 둘 사이에 간극이 존재했습니다. 본 논문에서 제안하는 DOPP (D-Optimal PPA-driven partitioning selection) 프레임워크는 이러한 근사치와 실제 PPA 측정 사이의 격차를 해소합니다. DOPP는 적은 후보군 평가만으로도 기존 방식과 유사한 최고 수준의 PPA 성능을 달성하며, 8개의 3D-IC 디자인에서 평균적으로

4월 23일11

ARM vs x86-64 노트북 프로세서 비교 분석: 아키텍처와 에너지 효율성

본 연구는 Apple M3 (ARM 기반)과 AMD Ryzen 7 3750H (x86-64 기반) 노트북 프로세서를 아키텍처적 관점과 실제 벤치마크를 통해 비교 분석합니다. AArch64의 고정 폭 로드-스토어(load-store) 설계와 x86-64의 가변 길이, 메모리 연산 중심 모델을 대조하며, 레지스터 구성, 호출 규약, 이종 코어 구조 등의 차이가 성능과 에너지 특성에 미치는 영향을 탐구합니다. 실험 결과, Ryzen 플랫폼은 분기(branch)-중심 벤치마크에서 우위를 보였으나, Apple M3는 Fibonacci 및 행

칩렛과 광학 인터커넥트를 결합한 LLM 훈련 최적화 방법론 (ChipLight)

대규모 분산 LLM(Large Language Model) 훈련에서 통신 병목 현상은 핵심 성능 저하 요인입니다. 본 논문은 칩렛(Chiplet) 기술과 광학 인터커넥트(Optical Interconnect, OI)를 결합하여 이 문제를 해결하는 'ChipLight'라는 다층적 최적화 방법론을 제시합니다. ChipLight는 칩렛 아키텍처 설계, 병렬 훈련 전략, 그리고 OI 네트워크 토폴로지를 동시에 공동 최적화(co-optimizing)함으로써, 미래의 대규모 AI 훈련 클러스터 개발에 필요한 효율성과 통찰력을 제공합니다.

4월 23일9

AI 엔진 기반 극한 엣지 과학 컴퓨팅 설계 가이드

극한 엣지(Extreme-edge) 환경의 과학 애플리케이션은 실시간 센서 데이터 분석 및 의사결정을 위해 머신러닝 모델을 사용합니다. 이러한 환경은 엄격한 지연 시간(latency)과 처리량(throughput) 요구사항 때문에 작은 배치 크기(small batch sizes)와 모델 가중치 전체를 온칩(on-chip)에 유지해야 합니다. 기존의 공간 데이터 흐름(Spatial dataflow) 방식은 소규모 네트워크에는 적합하지만, 대형 모델로 확장될 때 자원 한계에 부딪힙니다. 본 논문은 AI 엔진을 활용하여 이러한 극한 엣지

4월 23일9

임베디드 FPGA용 에너지 효율적인 LSTM 가속기 설계

본 논문은 리소스가 제한된 임베디드 환경의 Field Programmable Gate Arrays (FPGAs)에서 Long Short-term Memory Networks (LSTMs)를 구동하기 위한 새로운 하드웨어 가속기 설계를 제안합니다. 이 아키텍처는 최적화 파라미터(예: DSP 사용 여부, 활성화 함수 구현 방식)를 통해 다양한 상황에 맞게 조정 가능하며, 실제 추론 테스트에서 11.89 GOP/s/W의 에너지 효율을 달성하여 기존 대비 성능 향상과 전력 소비 감소를 입증했습니다.

워크로드 인식 표면 코드 아키텍처 설계 방안

본 논문은 오류 허용 양자 컴퓨팅(Fault-Tolerant Quantum Computing, FTQC)의 높은 오버헤드 문제를 해결하기 위해 새로운 하이브리드 아키텍처를 제안합니다. 기존 설계는 빠른 로직 큐비트 접근성이나 높은 밀도 중 하나에 치중하여 트레이드오프가 발생했습니다. 저희는 데이터 큐비트를 중심으로 주변에 표면 코드 패치를 배치하고, 이를 기반으로 애플리케이션의 $T$-게이트 프로파일을 활용하는 워크로드 주도형 플래닝 방법을 도입했습니다. 이 방법은 사이클당 명령어(CPI)를 최적 영역 근처로 유지하면서 데이터 타일

ChipCraftBrain: 다중 에이전트 기반 RTL 자동 생성 프레임워크

본 논문은 자연어 명세로부터 높은 기능적 정확도를 가진 레지스터 전송 레벨(RTL) 코드를 자동으로 생성하는 새로운 프레임워크, ChipCraftBrain을 소개합니다. 기존의 단일 에이전트 모델들은 60-65% 수준에 머무르는 반면, ChipCraftBrain은 적응형 다중 에이전트 오케스트레이션과 하이브리드 심볼릭-신경 아키텍처를 결합하여 성능을 극대화했습니다. VerilogEval-Human에서 97.2%의 높은 평균 pass@1 점수를 달성했으며, 특히 NVIDIA의 CVDP와 같은 산업 표준 벤치마크에서도 기존 대비 상당한

논리 큐비트용 오류 완화 및 탐지 공동 설계 방안

양자 컴퓨팅의 근접 시기 워크로드를 위해 필수적인 오류 관리가 중요합니다. 본 연구는 양자 오류 탐지(QED)와 확률적 오류 제거(PEC)라는 두 가지 핵심 기법을 결합하는 아키텍처 설계 공간에 초점을 맞춥니다. 기존에는 QED가 노이즈를 줄여주지만 잔류 오류를 남기고, PEC는 이를 소프트웨어적으로 보정하지만 비용이 크게 증가했습니다. 본 논문은 최적의 'QED 간격'을 정의하고, 나아가 초기 탐지 사이클에서 발생하는 일시적 오류가 전체 시스템 성능을 저하시키는 문제를 해결하기 위해 'steady-state extraction'과

하이브리드 메모리 시스템의 페이지 마이그레이션 효율화 방안 (Duon)

본 논문은 HBM, DRAM, NVM 등 이종 메모리를 활용하는 하이브리드 메모리 아키텍처(HMA)의 성능 병목 현상을 해결하기 위한 'Duon'이라는 새로운 기법을 제안합니다. 기존 시스템에서 페이지 마이그레이션 시 발생하는 TLB Shootdown 및 캐시 라인 무효화 오버헤드가 주요 문제입니다. Duon은 업데이트된 매핑 정보를 Extended TLB와 Page Table에 직접 저장하여, 페이지 이동 후에도 이러한 비싼 오버헤드를 근본적으로 제거합니다. 그 결과, 기존 최고 성능 기술 대비 IPC를 3.87% 향상시키는 효과

복소수 불확실성 추정 및 하드웨어 가속을 위한 BayesCVNN

본 논문은 복소수 값을 다루는 작업에서 예측 불확실성을 정량화할 수 있는 새로운 접근 방식인 드롭아웃 기반 베이즈 복소수 신경망(BayesCVNNs)을 제안합니다. 기존 CVNN의 한계였던 불확실성 추정 기능을 추가하고, 복소수의 이중 구조를 활용한 자동 최적화 검색 기법을 도입했습니다. 나아가, BayesCVNN을 효율적으로 구현하기 위해 FPGA 기반 가속기 프레임워크를 제시하여, GPU 대비 높은 성능 향상(최대 13배)과 낮은 전력 소모를 동시에 달성했음을 입증합니다.

4월 23일10

EnergAIzer: AI 워크로드 전력 예측을 위한 빠르고 정확한 프레임워크

데이터센터의 AI 워크로드 증가로 GPU 전력 관리가 중요해지면서, 기존의 전력 모델들은 하드웨어 활용률 입력값 확보에 어려움을 겪었습니다. 본 논문은 이러한 확장성 병목 현상을 해결하기 위해 EnergAIzer를 제안합니다. EnergAIzer는 AI 커널의 구조적 패턴을 분석하여 메모리 트래픽과 실행 타임라인 같은 활용률 입력값을 빠르고 정확하게 예측하는 경량화된 솔루션입니다. 이를 통해 전력 추정 시간을 수 시간에서 몇 초 단위로 단축하며, NVIDIA Ampere GPU에서 8%의 낮은 전력 오차를 달성했습니다. 이 프레임아

저전력 캐시를 위한 6T SRAM 기반 혁신 아키텍처 제안

본 논문은 기존의 6트랜지스터(6T) SRAM 셀을 활용하여 저전력 캐시 메모리 아키텍처를 제안합니다. 핵심 아이디어는 인접한 셀들을 컬럼 방향으로 직렬 연결(series interconnection)하는 것입니다. 이 '스태킹 효과(stacking effect)'를 이용해 특히 홀드(hold) 동작 시 발생하는 누설 전류(leakage current)를 억제함으로써, 트랜지스터 개수를 늘리지 않고도 캐시 메모리의 전력 효율을 크게 개선합니다. 시뮬레이션 결과는 제안된 아키텍처가 기존 방식 대비 낮은 누설 전력을 유지하면서 표준 6

RowHammer 완화 아키텍처: PVAC를 이용한 피해 행(Victim) 기반 카운팅

DRAM 스케일링으로 인한 RowHammer 공격 위협이 증가함에 따라, DDR5는 개별 행 활성화 카운팅(PRAC)을 도입했습니다. 하지만 PRAC는 무해한 리프레시까지 모두 카운트하여 카운터 포화 및 성능 저하를 유발하는 문제가 있습니다. 본 논문은 이러한 문제를 해결하기 위해 피해 행(Victim-row) 기반의 Per-Victim-row hAmmered Counting (PVAC)을 제안합니다. PVAC는 실제 RowHammer 메커니즘에 맞춰 카운터 증가 및 리셋 로직을 설계하여, 기존 PRAC보다 높은 내성도를 유지하면서

지속 가능한 컴퓨팅 플랫폼 비교: FPGA가 ASIC, GPU, CPU 대비 강점 분석

본 논문은 기후 변화 대응 관점에서 지속 가능한 컴퓨팅의 중요성을 강조하며, 반도체 사용 전반의 탄소 발자국 (Carbon Footprint, CFP)을 평가하는 방법론을 제시합니다. 특히 재구성 가능성(reconfigurability)이 높은 FPGA를 중심으로 GreenFPGA라는 도구를 소개하여, 설계부터 폐기까지 전체 수명 주기 동안의 CFP를 추정합니다. 실험 결과에 따르면, FPGA는 워크로드가 자주 변화하고 다양하며 생산량이 적은 (low-volume) 애플리케이션 환경에서 ASIC, GPU, CPU 대비 더 지속 가능

4월 23일10

AMD Versal AIE-ML 기반 CRONet 가속을 통한 저지연 위상 최적화

본 연구는 구조 건전성 모니터링과 같은 중요 인프라 분야에 필수적인 저지연 및 에너지 효율적인 위상 최적화(Topology Optimization)를 위해, 신경망 기반의 계산 방법인 CRONet을 AMD Versal AI Engine-ML (AIE-ML) 아키텍처에서 하드웨어 가속하는 방법을 제시합니다. 기존의 DNN 기반 구현은 높은 지연 시간과 낮은 에너지 효율성을 보였으나, 본 연구는 모든 중간 활성화 값(activations)과 네트워크 가중치(weights)를 온칩(on-chip)에 유지하여 DRAM 의존성을 완전히 제거