Insights

무선 IoT 장치 지문 인식을 위한 Hamming Code 기반 SRAM PUF 인증 기법

본 논문은 제조 과정의 고유한 변동성을 활용하는 SRAM 물리적 비식별 함수(PUF)를 이용해 제한된 산업용 사물인터넷(IIoT) 장치에 대한 임계값 기반 인증 방안을 제시합니다. 특히, 기존 SRAM PUF가 가진 신뢰성 문제를 Hamming 코드 (HC) 오류 정정 (EC)과 시간적 다수결 투표 (TMV)의 효율적인 조합으로 해결했습니다. 이 접근 방식은 인증 후 비트 오류율(BER)을 1% 미만으로 안정적으로 유지할 수 있게 합니다. 또한, 신뢰성과 보안 제약 조건 사이의 '임계값 간극'을 설계 예산으로 재정의하여, 자원 효율

pufsramiot

CIMple: SRAM 기반 CIM으로 어텐션 가속화하는 방법

LLM을 엣지 디바이스에 배포할 때 발생하는 자원 제약 문제를 해결하기 위해, 본 논문은 메모리 내 연산(Compute-in-Memory, CIM) 기반의 어텐션 가속기 'CIMple'을 제안합니다. 기존 CIM 구조가 정적 MAC 연산만 지원하여 비선형 연산 구현에 한계가 있었던 문제를 해결하고자 했습니다. CIMple은 8비트 병렬 가중치 피딩과 LUT(Look-Up Table) 기반의 고정 소수점 분할 소프트맥스(split softmax)를 도입하여, 트랜스포머 모델의 핵심인 셀프 어텐션 연산을 효율적으로 처리합니다. 28nm

llmcompute-in-memorycim

mlirequivalence checkingformal verification

EquivFusion: 알고리즘부터 넷리스트까지 하드웨어 동등성 검증 통합 솔루션

EquivFusion은 고수준의 알고리즘 모델(PyTorch, C/C++)부터 저수준 하드웨어 넷리스트까지 이질적인 추상화 레벨 간의 기능적 일관성을 검증하는 통합 도구입니다. 기존 방식처럼 파편화된 도구를 사용하는 대신, MLIR 기반의 검증 지향적인 (verification-oriented) 로어링(lowering) 파이프라인을 활용하여 다양한 입력 포맷을 공통 중간 표현(Intermediate Representation, IR)으로 통일합니다. 이를 통해 SMT-LIB, BTOR2, AIGER와 같은 표준 형식으로 자동 변환된

llmnpumemory architecture

MemExplorer: 에이전트 추론을 위한 이종 메모리 설계 공간 탐색기

본 논문은 급증하는 에이전트 기반 LLM 워크로드의 요구사항(용량 및 대역폭)을 충족하기 위해, 이종 가속기 시스템에 최적화된 메모리 아키텍처를 설계하는 방법론 'MemExplorer'를 제안합니다. MemExplorer는 온칩 SRAM부터 HBM, LPDDR 등 다양한 계층의 메모리 기술을 통합적으로 모델링할 수 있는 통일된 추상화를 제공하며, NPU 디자인(예: 행렬 엔진 크기)과 메모리 시스템 설계를 동시에 최적화합니다. 실험 결과에 따르면, MemExplorer는 에이전트 워크로드 전반에서 기존 NPU 대비 최대 2.3배의,

hpcinterconnection-networkcongestion-dynamics

HPC 상호연결 네트워크의 통신 패턴 및 혼잡 동역학 분석 방법론

본 논문은 슈퍼컴퓨터와 데이터센터의 핵심 요소인 상호연결 네트워크(interconnection network)가 직면하는 통신 병목 현상을 다룹니다. 특히, 고성능 컴퓨팅(HPC), 딥러닝 학습 등 실제 애플리케이션에서 발생하는 복잡한 트래픽 패턴으로 인한 혼잡(congestion) 문제를 해결하기 위한 방법론을 제시합니다. 기존의 VEF Traces 프레임워크를 확장하여, NEST, GROMACS, LAMMPS, PATMOS와 같은 대표적인 과학 계산 프로그램들을 여러 슈퍼컴퓨터에서 실행한 실제 데이터를 분석했습니다. 이를 통해,

tinymlcnn acceleratormatrix decomposition

근사 행렬 분해 기반 CNN 가속기 설계로 TinyML 성능 최적화

본 논문은 자원 제약이 심한 온디바이스 AI 환경인 TinyML(Tiny Machine Learning)을 위한 새로운 CNN 가속기 설계 프레임워크를 제시합니다. 기존의 최적화 방식들은 훈련 데이터 접근이나 재학습 과정이 필요하여 민감한 데이터를 다루는 현장 적용에 어려움이 있었습니다. 본 연구는 근사 행렬 분해(Approximate Matrix Decomposition) 기법을 활용하여, 사전 학습된 CNN 모델 자체를 하드웨어 효율적으로 변환하고 최적화합니다. 이 프레임워크는 유전 알고리즘(Genetic Algorithm)을驅

llmkv cacheattention mechanism

HieraSparse: 계층적 희소 KV 어텐션으로 LLM 효율 극대화

긴 컨텍스트를 처리하는 대규모 언어 모델(LLMs)은 셀프 어텐션과 Key-Value Cache (KV Cache) 때문에 막대한 계산 비용과 메모리 오버헤드를 가집니다. 본 논문에서 제안하는 HieraSparse는 계층적 KV 캐시 압축 프레임워크로, GPU 희소 텐서 코어를 활용하여 반구조화된(semi-structured) KV 캐시 어텐션을 가속합니다. 이 방법은 유연한 품질-희소성 트레이드오프를 제공하며, 기존 최신 기술 대비 동일 희소성 수준에서 $\mathbf{1.2\times}$의 KV 압축률과 $4.57\times$의

floating-pointsquare-roote2afs

E2AFS: 저전력 근사 부동소수점 제곱근 계산 아키텍처

본 논문은 엣지 AI, 신호 처리 등 전력 및 지연 시간이 중요한 분야에서 사용되는 부동소수점 제곱근 계산을 위한 새로운 아키텍처 E2AFS를 제안합니다. 기존 방식들이 곱셈기(multiplier)나 반복 파이프라인에 의존하여 복잡성과 에너지 소모가 컸던 문제를 해결하고자 합니다. E2AFS는 곱셈기가 전혀 필요 없는 경량화된 구조로, 논리 깊이를 줄이고 스위칭 활동을 최소화했습니다. Artix-7 FPGA 구현 결과, 기존의 ESAS나 CWAHA 같은 아키텍처 대비 가장 낮은 동적 전력(7.63 mW), 가장 짧은 임계 경로 지연

memory_simulatorperformance_predictioncpu-memory-interface

메모리 시스템 시뮬레이터 정확도 향상 방안 연구

본 논문은 메모리 시뮬레이터가 실제 하드웨어 성능과 차이를 보이는 원인을 분석하고, 이를 개선하기 위한 방법론을 제시합니다. 기존 시뮬레이터는 메모리 시스템의 성능 예측에 사용되지만, 정확도가 떨어지는 경우가 많습니다. 연구진은 메모리 성능을 세 가지 관점(시뮬레이터 자체, CPU-메모리 인터페이스, 애플리케이션)에서 평가하여 이들 간의 불일치를 확인했습니다. 특히, CPU-메모리 인터페이스가 부정확성의 주요 원인임을 밝혀냈습니다. 이에 따라 인터페이스 관련 오류를 수정하고 통합 시뮬레이터를 개선하는 방안을 구현했으며, Ramul-

spiking neural networksneuromorphic computingedge ai

스파이크 희소성이 엣지 디바이스 비용 절감에 미치는 영향 분석

본 연구는 스파이킹 신경 연산자(Spiking Neural Operators)가 뉴로모픽 엣지 컴퓨팅에서 가지는 희소성 기반의 에너지 및 지연 시간 이점을 실제 상용 엣지 GPU 환경에서도 유지하는지 검증했습니다. Jetson Orin Nano를 사용하여 변수 스파이킹 웨이블릿 신경 연산자(VS-WNO)와 일반 밀집형 웨이블릿 신경 연산자(WNO)를 비교 분석한 결과, VS-WNO가 알고리즘적으로 높은 희소성을 보였음에도 불구하고 실제 추론 비용(latency 및 energy)은 오히려 밀집형 WNO보다 높게 나타났습니다. 이는 런

자연어 기반 하드웨어 설계의 병목 현상 분석

본 논문은 자연어 설명만으로 회로를 생성하는 LLM 기반 하드웨어 디자인 프로세스를 다룹니다. 이 과정에서, 어떤 최첨단 LLM을 사용하든 간에 최종 성공 여부를 결정하는 가장 중요한 요소는 모델 자체가 아니라 '표현 중간 언어(IR)'의 선택임이 밝혀졌습니다. 연구진은 6가지 다양한 IR과 여러 LLM 조합으로 202개 태스크를 평가했습니다. 그 결과, 시뮬레이션 통과율은 IR마다 큰 차이를 보였으나, 특정 IR 내에서는 모델 간 성능 편차가 크지 않았습니다. 특히 자원 제약이 심한 FPGA 환경에서 LLM 기반 설계가 기준 대비

llmhardware designfpga

llmhardware designrtl generation

LLM 기반 하드웨어 설계: 모델보다 설정(Configuration)이 더 중요하다

기존의 오픈소스 대규모 언어 모델(LLM) 벤치마킹은 어떤 모델을 사용하는지에 초점을 맞추고, 추론 시 디코딩 설정(decoding configuration)을 부차적인 문제로 취급해왔습니다. 본 연구는 하드웨어 설계(RTL Generation) 분야에서 LLM의 성능이 모델 자체의 차이보다 사용자가 설정하는 하이퍼파라미터에 훨씬 민감하다는 것을 입증했습니다. 26개의 오픈소스 LLM을 VerilogEval 및 RTLLM 같은 벤치마크로 평가하고, 특히 세 가지 주요 모델에 대해 108가지 조합의 광범위한 하이퍼파라미터 스윕(swe

LLM 서비스의 KV-Cache 블록 비트 플립 취약점 분석

본 연구는 대규모 언어 모델(LLM) 서빙 시스템에서 공유되는 키-값 캐시 (KV-Cache) 블록이 가질 수 있는 비트 플립 취약점을 분석했습니다. 특히 vLLM의 Prefix Caching과 같은 환경에서, 이 공유 블록들은 무결성 보호 없이 존재합니다. 연구진은 소프트웨어 오류 주입을 통해 최악의 시나리오를 분석한 결과, 세 가지 심각한 특성을 발견했습니다: 1) 침묵적 발산(Silent divergence), 2) 선택적 전파(Selective propagation), 그리고 3) 지속적 축적(Persistent acumal

llmkv-cachesecurity

4월 23일4

Clover: RTL 버그 수정을 위한 신경-기호 에이전트 시스템

RTL(Register Transfer Level) 프로그램 수정은 하드웨어 설계 및 검증의 핵심 병목 지점입니다. 기존 자동 프로그램 수정(APR) 방식은 템플릿에 의존하여 버그 커버리지가 제한적이며, LLM 기반 에이전트는 긴 RTL 코드와 파형 처리 시 무작위성이나 컨텍스트 손실 문제가 발생합니다. 본 논문에서 제안하는 Clover는 신경-기호(Neural-Symbolic) 에이전트 시스템으로, 버그 해결을 구조화된 탐색 과정으로 만듭니다. 특히 '확률적 사고의 트리 (Stochastic Tree-of-Thoughts)'를 채

rtlllmagentic

risc-vfunctional safetyautomotive

자율주행 시스템의 안전성 확보를 위한 RISC-V 활용 전략

본 논문은 자율주행차량용 임베디드 컴퓨팅 플랫폼으로 부상하는 RISC-V의 기능 안전성(Functional Safety) 확보 방안을 제시합니다. 핵심적으로, 자동차 시스템의 안전 문제는 단순히 프로세서 성능이 아니라 ISO 26262 및 SOTIF 같은 복잡한 인증 절차와 비용 문제임을 지적합니다. 따라서 논문은 단일 알고리즘 개발보다는 '인증 경제학(Certification Economics)'을 최우선 목표로 하는 분석 프레임워크와 연구 로드맵을 제안합니다. 특히, LLM 기반 FMEDA 생성, 지식 그래프를 활용한 안전 사례

vrprivacy-preservingoffloading

Privatar: 안전한 오프로딩으로 확장 가능한 다중 사용자 VR 구현

본 논문은 다수의 사용자가 참여하는 가상현실(VR) 환경에서 발생하는 높은 연산 부하 문제를 해결하기 위해 'Privatar'라는 프레임워크를 제안합니다. 기존 방식으로는 많은 아바타 렌더링이 기기 성능의 한계가 되어 확장성이 떨어졌습니다. Privatar는 아바타 재구성을 VR 헤드셋 외부의 신뢰할 수 없는 장치로 오프로딩(offloading)하는 방식을 사용하며, 이 과정에서 데이터 유출 및 공격을 막는 것이 핵심입니다. 시스템적으로는 BDCT를 이용한 주파수 분해와 'Horizontal Partitioning (HP)' 기법을

SRAM 기반 메모리 내 컴퓨팅 가속기 설계 프레임워크 (AccelCIM)

본 논문은 높은 연산 밀도와 에너지 효율을 자랑하는 SRAM 기반 메모리 내 컴퓨팅(Compute-in-Memory, CIM) 가속기의 한계를 극복하기 위해 'AccelCIM'이라는 체계적인 데이터 흐름 탐색 프레임워크를 제안합니다. 기존 연구들은 DNN 모델 전체가 온칩에 적재된다고 가정하여 대규모 모델의 데이터 이동 오버헤드를 간과했습니다. AccelCIM은 CIM 매크로 구성과 배열 구조 전반을 아우르는 체계적인 설계 공간을 정의하고, 사이클 정확도의 시뮬레이션 및 PPA 분석을 통해 엄격한 평가를 수행합니다. 이를 통해 실제

sramcompute-in-memorycim

zkpzero knowledge proofai asic

AI ASIC 최적화로 제로 지식 증명(ZKP) 성능 혁신

본 논문은 ZKP 프로버의 높은 계산 비용 문제를 해결하기 위해, 인공지능 가속기(AI ASIC)에 최적화된 새로운 프레임워크 MORPH를 제안합니다. 기존 ZKP 연산의 병목 구간인 다중 스케일 곱셈(MSM)과 수론 변환(NTT)을 AI ASIC 아키텍처에 맞게 재구성했습니다. 특히, 하드웨어 구조를 고려한 새로운 복잡도 모델인 Big-T를 도입하여, 기존 빅-오 표기법(Big-O)이 놓치던 이질적인 병목 현상과 레이아웃 변환 비용까지 분석했습니다. MORPH는 산술 레벨에서 고정밀 모듈러 연산을 저정밀도의 밀집 GEMM으로 변환

M100: 범용 AI 컴퓨팅을 위한 데이터플로우 아키텍처

AI 기술 발전과 함께 범용 AI 컴퓨팅 수요가 증가하고 있습니다. 기존 GPGPU는 유연하지만 효율성과 비용 면에서 한계가 있으며, DSA는 특정 작업에만 국한되는 문제가 있습니다. Li Auto의 M100은 이러한 문제를 해결하기 위해 개발된 데이터플로우 병렬 아키텍처입니다. M100은 컴파일러-아키텍처 공동 설계를 통해 계산뿐 아니라 시간과 공간을 넘나드는 데이터 이동까지 최적화합니다. 특히 캐싱(caching) 의존도를 크게 낮추고, 텐서(tensor)를 기본 데이터 요소로 사용하여 효율성과 확장성을 높였습니다. M100은자

aidataflowllm