Insights

LLM 서비스의 KV-Cache 블록 비트 플립 취약점 분석

본 연구는 대규모 언어 모델(LLM) 서빙 시스템에서 공유되는 키-값 캐시 (KV-Cache) 블록이 가질 수 있는 비트 플립 취약점을 분석했습니다. 특히 vLLM의 Prefix Caching과 같은 환경에서, 이 공유 블록들은 무결성 보호 없이 존재합니다. 연구진은 소프트웨어 오류 주입을 통해 최악의 시나리오를 분석한 결과, 세 가지 심각한 특성을 발견했습니다: 1) 침묵적 발산(Silent divergence), 2) 선택적 전파(Selective propagation), 그리고 3) 지속적 축적(Persistent acumal

4월 23일9

Clover: RTL 버그 수정을 위한 신경-기호 에이전트 시스템

RTL(Register Transfer Level) 프로그램 수정은 하드웨어 설계 및 검증의 핵심 병목 지점입니다. 기존 자동 프로그램 수정(APR) 방식은 템플릿에 의존하여 버그 커버리지가 제한적이며, LLM 기반 에이전트는 긴 RTL 코드와 파형 처리 시 무작위성이나 컨텍스트 손실 문제가 발생합니다. 본 논문에서 제안하는 Clover는 신경-기호(Neural-Symbolic) 에이전트 시스템으로, 버그 해결을 구조화된 탐색 과정으로 만듭니다. 특히 '확률적 사고의 트리 (Stochastic Tree-of-Thoughts)'를 채

자율주행 시스템의 안전성 확보를 위한 RISC-V 활용 전략

본 논문은 자율주행차량용 임베디드 컴퓨팅 플랫폼으로 부상하는 RISC-V의 기능 안전성(Functional Safety) 확보 방안을 제시합니다. 핵심적으로, 자동차 시스템의 안전 문제는 단순히 프로세서 성능이 아니라 ISO 26262 및 SOTIF 같은 복잡한 인증 절차와 비용 문제임을 지적합니다. 따라서 논문은 단일 알고리즘 개발보다는 '인증 경제학(Certification Economics)'을 최우선 목표로 하는 분석 프레임워크와 연구 로드맵을 제안합니다. 특히, LLM 기반 FMEDA 생성, 지식 그래프를 활용한 안전 사례

Privatar: 안전한 오프로딩으로 확장 가능한 다중 사용자 VR 구현

본 논문은 다수의 사용자가 참여하는 가상현실(VR) 환경에서 발생하는 높은 연산 부하 문제를 해결하기 위해 'Privatar'라는 프레임워크를 제안합니다. 기존 방식으로는 많은 아바타 렌더링이 기기 성능의 한계가 되어 확장성이 떨어졌습니다. Privatar는 아바타 재구성을 VR 헤드셋 외부의 신뢰할 수 없는 장치로 오프로딩(offloading)하는 방식을 사용하며, 이 과정에서 데이터 유출 및 공격을 막는 것이 핵심입니다. 시스템적으로는 BDCT를 이용한 주파수 분해와 'Horizontal Partitioning (HP)' 기법을

SRAM 기반 메모리 내 컴퓨팅 가속기 설계 프레임워크 (AccelCIM)

본 논문은 높은 연산 밀도와 에너지 효율을 자랑하는 SRAM 기반 메모리 내 컴퓨팅(Compute-in-Memory, CIM) 가속기의 한계를 극복하기 위해 'AccelCIM'이라는 체계적인 데이터 흐름 탐색 프레임워크를 제안합니다. 기존 연구들은 DNN 모델 전체가 온칩에 적재된다고 가정하여 대규모 모델의 데이터 이동 오버헤드를 간과했습니다. AccelCIM은 CIM 매크로 구성과 배열 구조 전반을 아우르는 체계적인 설계 공간을 정의하고, 사이클 정확도의 시뮬레이션 및 PPA 분석을 통해 엄격한 평가를 수행합니다. 이를 통해 실제

AI ASIC 최적화로 제로 지식 증명(ZKP) 성능 혁신

본 논문은 ZKP 프로버의 높은 계산 비용 문제를 해결하기 위해, 인공지능 가속기(AI ASIC)에 최적화된 새로운 프레임워크 MORPH를 제안합니다. 기존 ZKP 연산의 병목 구간인 다중 스케일 곱셈(MSM)과 수론 변환(NTT)을 AI ASIC 아키텍처에 맞게 재구성했습니다. 특히, 하드웨어 구조를 고려한 새로운 복잡도 모델인 Big-T를 도입하여, 기존 빅-오 표기법(Big-O)이 놓치던 이질적인 병목 현상과 레이아웃 변환 비용까지 분석했습니다. MORPH는 산술 레벨에서 고정밀 모듈러 연산을 저정밀도의 밀집 GEMM으로 변환

M100: 범용 AI 컴퓨팅을 위한 데이터플로우 아키텍처

AI 기술 발전과 함께 범용 AI 컴퓨팅 수요가 증가하고 있습니다. 기존 GPGPU는 유연하지만 효율성과 비용 면에서 한계가 있으며, DSA는 특정 작업에만 국한되는 문제가 있습니다. Li Auto의 M100은 이러한 문제를 해결하기 위해 개발된 데이터플로우 병렬 아키텍처입니다. M100은 컴파일러-아키텍처 공동 설계를 통해 계산뿐 아니라 시간과 공간을 넘나드는 데이터 이동까지 최적화합니다. 특히 캐싱(caching) 의존도를 크게 낮추고, 텐서(tensor)를 기본 데이터 요소로 사용하여 효율성과 확장성을 높였습니다. M100은자

4월 23일8

NDP 가속기 프로그래밍을 위한 효율적인 모델: Proxics

CXL과 같은 분산 메모리 시스템의 등장으로 Near-Data Processing (NDP)에 대한 관심이 높아지고 있습니다. NDP는 코어를 메모리 근처에 배치하여 CPU와 메모리 간 대역폭 요구를 줄이는 기술입니다. 기존 하드웨어 설계들은 이러한 가속기를 위한 깨끗하고 이식 가능한 OS 추상화 계층을 부족하게 가지고 있습니다. 본 논문은 익숙한 운영체제(OS) 개념인 가상 프로세서(프로세스)와 IPC 채널 기반의 프로그래밍 모델을 제안합니다. 하지만 NDP 가속기의 낮은 처리 능력과 메모리 대역폭 감소 목표를 고려할 때, 일반적

PIM 기반 LLM 활성화 양자화로 메모리 병목 해소 (AQPIM)

본 논문은 데이터 집약적 ML의 메모리 병목 현상을 해결하는 유망한 아키텍처인 Processing-in-Memory (PIM)을 다룹니다. 기존 PIM 방식들은 특히 긴 컨텍스트에서 발생하는 거대한 KV 캐시 크기(활성화 메모리 발자국)를 처리하는 데 어려움을 겪었습니다. 본 연구는 이러한 문제를 해결하기 위해, 활성화 특성에 최적화된 새로운 PIM 인식 활성화 양자화 프레임워크인 AQPIM을 제안합니다. AQPIM은 Product Quantization (PQ) 기반으로 설계되어 메모리 내에서 직접 양자화를 수행함으로써, LLM의

4월 23일10

본연구는 송신(T) 및 산란(S) 매트릭스를 활용하여 2포트 브릿지드-T 네트워크를 특성화하는 방법을

본 연구는 송신(T) 및 산란(S) 매트릭스를 활용하여 2포트 브릿지드-T 네트워크를 특성화하는 방법을 제시합니다. 이를 통해 S11, S12, S21, S22와 같은 핵심 산란 파라미터를 도출하고, 특히 마이크로스트립 필터 설계에 중요한 S11과 S21의 크기 및 위상을 주파수 정규화 후 매개변수적으로 계산했습니다. L1과 L2 인덕터가 동일할 경우, S11 전달 함수 분자 다항식에서 짝수 계수가 제거되어 홀수 계수만 남게 됩니다. 이 특성을 이용하여 브릿지드-T 회로를 하이패스 필터(high-pass filter)로 설계했으며,