Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

Dr.RTL: 도구 기반 자율 에이전트 시스템을 활용한 현실적인 RTL 최적화

본 논문은 대규모 언어 모델(LLMs)의 발전에도 불구하고 기존 RTL 최적화 방법론이 비현실적인 평가 환경과 제한적인 규칙에 머물러 있음을 지적하며, 이를 해결하기 위한 에이전트 프레임워크인 Dr.RTL을 제안합니다. Dr.RTL은 실제 산업 EDA 워크플로우를 모방한 현실적인 평가 환경에서 작동하며, 다중 에이전트를 통해 크리티컬 패스 분석, 병렬 RTL 재작성 등을 수행하고, '그룹 상대 스킬 학습(group-relative skill learning)'을 도입하여 최적화 경험을 해석 가능한 스킬 라이브러리로 축적합니다. 20

4월 23일8

arXiv속보논문

LLM 기반 자율 진화형 EDA 툴: ABC 자동 개선 프레임워크

본 논문은 대규모 언어 모델(LLM) 에이전트를 활용하여 기존의 대표적인 로직 합성 시스템인 extsc{ABC} 코드를 자율적으로 개선하는 최초의 '자체 진화형' 프레임워크를 소개합니다. 이 시스템은 ABC 전체 코드베이스에 작용하며, 사람이 수동으로 휴리스틱을 주입하지 않고도 반복적인 평가 루프(QoR 기반)와 LLM 에이전트의 코딩 가이드(programming guidance)를 통해 최적화됩니다. ISCAS 등 다수의 벤치마크에서 검증된 이 프레임워크는 EDA 도구의 성능을 인간 설계 범위를 넘어선 새로운 합성 전략을 스스로

4월 23일9

arXiv중요논문

SCENIC: 스트림 컴퓨팅 기반 차세대 SmartNIC 아키텍처

AI 데이터센터의 핵심 인프라인 SmartNIC는 현재 상용 제품과 연구 프로토타입 간에 성능 및 유연성 격차를 겪고 있습니다. 본 논문에서 제안하는 SCENIC은 이 문제를 해결하기 위해 NIC 데이터패스를 '1급 스트림 컴퓨팅 기판'으로 접근합니다. SCENIC은 200G 네트워크 데이터패스, 온-데이터패스 Stream Compute Units (SCUs), 그리고 유연한 제어 경로를 위한 임베디드 ARM 코어를 결합하여 설계되었습니다. 이는 기존 애플리케이션에 투명하게 통합되면서도 사용자 정의 오프로드를 구현하고 프로그래밍이민

4월 23일8

arXiv중요논문

오픈소스 기반 실시간 다중 스펙트럼 광음향 이미징 시스템 구축

본 논문은 실시간 다중 스펙트럼 광음향 이미징(RT-mPAI) 시스템의 주요 난제인 동기화 불안정성을 해결하기 위한 오픈소스 하드웨어-소프트웨어 아키텍처를 제시합니다. OPOTEK Phocus 레이저와 Verasonics Vantage 데이터 획득 장비를 결합하는 이 시스템은 독립형 마이크로컨트롤러를 사용하여 결정론적(deterministic) 레이저 트리거 카운팅을 수행하고, 클라이언트-서버 데이터 스트리밍 프레임워크를 분리하여 운영체제(OS)의 타이밍 오차와 로컬 저장소 병목 현상을 우회합니다. 이 오픈소스 파이프라인 공유를 목

4월 23일8

arXiv중요논문

데이터센터 대규모 AI 학습 부하의 전력 변동 완화 기술: EasyRider

대규모 AI 모델 훈련 워크로드는 GPU 수천 개가 동기식 루프를 돌며 작동하므로, 시작/종료 및 체크포인팅 과정에서 전력 소비가 급격히 변동합니다. 이러한 큰 부하 스윙은 그리드 인프라에 과도한 스트레스(급격한 전력 램프율, 전압/주파수 변화)를 주어 변압기나 컨버터 손상을 유발할 수 있습니다. 본 논문에서 제안하는 EasyRider는 패시브 부품과 능동 제어 보조 에너지 저장 시스템을 활용하여 랙 레벨의 전력 변동을 완화합니다. 이는 AI 프레임워크 수정 없이 그리드 안전 기준을 충족시키며, 실제 프로토타입 테스트를 통해 그 효

4월 23일9

arXiv중요논문

Spec2Cov: LLM 기반 디지털 하드웨어 검증 자동화 프레임워크

디지털 하드웨어 설계의 핵심 단계인 검증(Verification)은 높은 시간과 자원을 요구하며, 커버리지 클로저(Coverage Closure) 과정이 수동적이고 비효율적이라는 문제가 있습니다. 본 논문에서 제안하는 Spec2Cov는 대규모 언어 모델(LLM)을 활용한 에이전트 프레임워크입니다. Spec2Cov는 설계 명세서(design specifications)로부터 테스트 자극(test stimulus)을 자동으로 생성하고, LLM과 하드웨어 시뮬레이터를 연동하여 컴파일 및 시뮬레이션 오류를 관리하며 커버리지 보고서를 분석해

4월 23일9

arXiv중요논문

Overmind: 신경-기호 통합 아키텍처로 AI 성능 혁신

본 논문은 대규모 언어 모델(LLM)과 자율 시스템 등에서 중요성이 커지고 있는 신경-기호 AI (Neuro-Symbolic AI)의 하드웨어 구현 한계를 극복하기 위한 새로운 통합 아키텍처 'Overmind'를 제안합니다. Overmind는 비선형 활성화 함수에 Padé 근사(Padé approximations) 기법을 적용하고, 비용이 많이 드는 온칩 캐시를 우회하는 사전 예방적 메모리 바이패스(preemptive memory bypass) 기능을 도입했습니다. 이를 통해 기존 플랫폼의 높은 전력 소모와 낮은 효율성 문제를 해결

4월 23일9

arXiv논문

HYPERHEURIST: LLM 기반 하드웨어 설계 최적화를 위한 시뮬레이티드 어닐링 프레임워크

LLM을 활용한 레지스터 전송 레벨(RTL) 하드웨어 설계는 가능성을 보여주었으나, 단일 생성 방식으로는 기능적 정확성과 전력 효율성 최적화가 어렵습니다. 본 논문은 시뮬레이티드 어닐링 (Simulated Annealing) 기반의 제어 프레임워크인 HYPERHEURIST를 제안합니다. 이 시스템은 LLM이 생성한 RTL을 최종 결과물이 아닌 중간 후보군으로 간주하고, 기능 검증(compilation, structural checks, simulation)을 거친 후 PPA (Power-Performance-Area) 최적화를 단계

4월 23일8

arXiv중요논문

LLM 기반 하드웨어 검증의 한계 분석: 토큰 할당과 커버리지 갭 탐색

본 연구는 LLM 기반 에이전트가 수행하는 하드웨어 검증(Hardware Verification)의 효율성 한계를 체계적으로 분석합니다. 기존 방식들이 커버리지 갭을 단순히 채우는 데 그쳤다면, 본 프레임워크는 '방법론적 한계'와 '추론적 경계'를 구분하여 근본적인 난이도를 식별합니다. 특히 시스템의 토큰 사용량을 6가지 범주로 추적하고 도메인 특화(domain-specialized) 에이전트를 적용함으로써, 일반 목적 LLM 대비 최대 13배 적은 토큰과 2~4배 빠른 속도로 높은 커버리지(95-99%)를 달성함을 입증했습니다.

4월 23일9

arXiv중요논문

무선 IoT 장치 지문 인식을 위한 Hamming Code 기반 SRAM PUF 인증 기법

본 논문은 제조 과정의 고유한 변동성을 활용하는 SRAM 물리적 비식별 함수(PUF)를 이용해 제한된 산업용 사물인터넷(IIoT) 장치에 대한 임계값 기반 인증 방안을 제시합니다. 특히, 기존 SRAM PUF가 가진 신뢰성 문제를 Hamming 코드 (HC) 오류 정정 (EC)과 시간적 다수결 투표 (TMV)의 효율적인 조합으로 해결했습니다. 이 접근 방식은 인증 후 비트 오류율(BER)을 1% 미만으로 안정적으로 유지할 수 있게 합니다. 또한, 신뢰성과 보안 제약 조건 사이의 '임계값 간극'을 설계 예산으로 재정의하여, 자원 효율

4월 23일8

arXiv중요논문

CIMple: SRAM 기반 CIM으로 어텐션 가속화하는 방법

LLM을 엣지 디바이스에 배포할 때 발생하는 자원 제약 문제를 해결하기 위해, 본 논문은 메모리 내 연산(Compute-in-Memory, CIM) 기반의 어텐션 가속기 'CIMple'을 제안합니다. 기존 CIM 구조가 정적 MAC 연산만 지원하여 비선형 연산 구현에 한계가 있었던 문제를 해결하고자 했습니다. CIMple은 8비트 병렬 가중치 피딩과 LUT(Look-Up Table) 기반의 고정 소수점 분할 소프트맥스(split softmax)를 도입하여, 트랜스포머 모델의 핵심인 셀프 어텐션 연산을 효율적으로 처리합니다. 28nm

4월 23일11

arXiv중요논문

EquivFusion: 알고리즘부터 넷리스트까지 하드웨어 동등성 검증 통합 솔루션

EquivFusion은 고수준의 알고리즘 모델(PyTorch, C/C++)부터 저수준 하드웨어 넷리스트까지 이질적인 추상화 레벨 간의 기능적 일관성을 검증하는 통합 도구입니다. 기존 방식처럼 파편화된 도구를 사용하는 대신, MLIR 기반의 검증 지향적인 (verification-oriented) 로어링(lowering) 파이프라인을 활용하여 다양한 입력 포맷을 공통 중간 표현(Intermediate Representation, IR)으로 통일합니다. 이를 통해 SMT-LIB, BTOR2, AIGER와 같은 표준 형식으로 자동 변환된

4월 23일7

arXiv중요논문

MemExplorer: 에이전트 추론을 위한 이종 메모리 설계 공간 탐색기

본 논문은 급증하는 에이전트 기반 LLM 워크로드의 요구사항(용량 및 대역폭)을 충족하기 위해, 이종 가속기 시스템에 최적화된 메모리 아키텍처를 설계하는 방법론 'MemExplorer'를 제안합니다. MemExplorer는 온칩 SRAM부터 HBM, LPDDR 등 다양한 계층의 메모리 기술을 통합적으로 모델링할 수 있는 통일된 추상화를 제공하며, NPU 디자인(예: 행렬 엔진 크기)과 메모리 시스템 설계를 동시에 최적화합니다. 실험 결과에 따르면, MemExplorer는 에이전트 워크로드 전반에서 기존 NPU 대비 최대 2.3배의,

4월 23일7

arXiv중요논문

HPC 상호연결 네트워크의 통신 패턴 및 혼잡 동역학 분석 방법론

본 논문은 슈퍼컴퓨터와 데이터센터의 핵심 요소인 상호연결 네트워크(interconnection network)가 직면하는 통신 병목 현상을 다룹니다. 특히, 고성능 컴퓨팅(HPC), 딥러닝 학습 등 실제 애플리케이션에서 발생하는 복잡한 트래픽 패턴으로 인한 혼잡(congestion) 문제를 해결하기 위한 방법론을 제시합니다. 기존의 VEF Traces 프레임워크를 확장하여, NEST, GROMACS, LAMMPS, PATMOS와 같은 대표적인 과학 계산 프로그램들을 여러 슈퍼컴퓨터에서 실행한 실제 데이터를 분석했습니다. 이를 통해,

4월 23일7

arXiv논문

근사 행렬 분해 기반 CNN 가속기 설계로 TinyML 성능 최적화

본 논문은 자원 제약이 심한 온디바이스 AI 환경인 TinyML(Tiny Machine Learning)을 위한 새로운 CNN 가속기 설계 프레임워크를 제시합니다. 기존의 최적화 방식들은 훈련 데이터 접근이나 재학습 과정이 필요하여 민감한 데이터를 다루는 현장 적용에 어려움이 있었습니다. 본 연구는 근사 행렬 분해(Approximate Matrix Decomposition) 기법을 활용하여, 사전 학습된 CNN 모델 자체를 하드웨어 효율적으로 변환하고 최적화합니다. 이 프레임워크는 유전 알고리즘(Genetic Algorithm)을驅

4월 23일7

arXiv논문

HieraSparse: 계층적 희소 KV 어텐션으로 LLM 효율 극대화

긴 컨텍스트를 처리하는 대규모 언어 모델(LLMs)은 셀프 어텐션과 Key-Value Cache (KV Cache) 때문에 막대한 계산 비용과 메모리 오버헤드를 가집니다. 본 논문에서 제안하는 HieraSparse는 계층적 KV 캐시 압축 프레임워크로, GPU 희소 텐서 코어를 활용하여 반구조화된(semi-structured) KV 캐시 어텐션을 가속합니다. 이 방법은 유연한 품질-희소성 트레이드오프를 제공하며, 기존 최신 기술 대비 동일 희소성 수준에서 $\mathbf{1.2\times}$의 KV 압축률과 $4.57\times$의

4월 23일7

arXiv중요논문

E2AFS: 저전력 근사 부동소수점 제곱근 계산 아키텍처

본 논문은 엣지 AI, 신호 처리 등 전력 및 지연 시간이 중요한 분야에서 사용되는 부동소수점 제곱근 계산을 위한 새로운 아키텍처 E2AFS를 제안합니다. 기존 방식들이 곱셈기(multiplier)나 반복 파이프라인에 의존하여 복잡성과 에너지 소모가 컸던 문제를 해결하고자 합니다. E2AFS는 곱셈기가 전혀 필요 없는 경량화된 구조로, 논리 깊이를 줄이고 스위칭 활동을 최소화했습니다. Artix-7 FPGA 구현 결과, 기존의 ESAS나 CWAHA 같은 아키텍처 대비 가장 낮은 동적 전력(7.63 mW), 가장 짧은 임계 경로 지연

4월 23일8

arXiv논문

메모리 시스템 시뮬레이터 정확도 향상 방안 연구

본 논문은 메모리 시뮬레이터가 실제 하드웨어 성능과 차이를 보이는 원인을 분석하고, 이를 개선하기 위한 방법론을 제시합니다. 기존 시뮬레이터는 메모리 시스템의 성능 예측에 사용되지만, 정확도가 떨어지는 경우가 많습니다. 연구진은 메모리 성능을 세 가지 관점(시뮬레이터 자체, CPU-메모리 인터페이스, 애플리케이션)에서 평가하여 이들 간의 불일치를 확인했습니다. 특히, CPU-메모리 인터페이스가 부정확성의 주요 원인임을 밝혀냈습니다. 이에 따라 인터페이스 관련 오류를 수정하고 통합 시뮬레이터를 개선하는 방안을 구현했으며, Ramul-

4월 23일7

arXiv논문

스파이크 희소성이 엣지 디바이스 비용 절감에 미치는 영향 분석

본 연구는 스파이킹 신경 연산자(Spiking Neural Operators)가 뉴로모픽 엣지 컴퓨팅에서 가지는 희소성 기반의 에너지 및 지연 시간 이점을 실제 상용 엣지 GPU 환경에서도 유지하는지 검증했습니다. Jetson Orin Nano를 사용하여 변수 스파이킹 웨이블릿 신경 연산자(VS-WNO)와 일반 밀집형 웨이블릿 신경 연산자(WNO)를 비교 분석한 결과, VS-WNO가 알고리즘적으로 높은 희소성을 보였음에도 불구하고 실제 추론 비용(latency 및 energy)은 오히려 밀집형 WNO보다 높게 나타났습니다. 이는 런

4월 23일7

arXiv논문

자연어 기반 하드웨어 설계의 병목 현상 분석

본 논문은 자연어 설명만으로 회로를 생성하는 LLM 기반 하드웨어 디자인 프로세스를 다룹니다. 이 과정에서, 어떤 최첨단 LLM을 사용하든 간에 최종 성공 여부를 결정하는 가장 중요한 요소는 모델 자체가 아니라 '표현 중간 언어(IR)'의 선택임이 밝혀졌습니다. 연구진은 6가지 다양한 IR과 여러 LLM 조합으로 202개 태스크를 평가했습니다. 그 결과, 시뮬레이션 통과율은 IR마다 큰 차이를 보였으나, 특정 IR 내에서는 모델 간 성능 편차가 크지 않았습니다. 특히 자원 제약이 심한 FPGA 환경에서 LLM 기반 설계가 기준 대비

4월 23일7

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드