Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

RecFlash: 주파수 기반 데이터 매핑을 통한 저장 내 컴퓨팅 기반 고속 추천 시스템

본 논문은 사용자 데이터 증가로 인한 실시간 추천 시스템 처리의 어려움을 해결하기 위해 NAND 플래시 기반 저장 내 컴퓨팅(In-Storage Computing, ISC)을 활용한 고속 추천 추론 가속기인 RecFlash를 제안합니다. 기존 ISC 아키텍처는 추천 작업의 불규칙하고 랜덤한 메모리 액세스 패턴 때문에 내부 대역폭 이용 효율이 낮다는 문제가 있었습니다. RecFlash는 주파수 기반 데이터 매핑 알고리즘을 적용하여 이러한 비효율성을 개선함으로써, 지연 시간과 에너지 소비를 획기적으로 줄이는 성능 향상을 입증했습니다.

in-storage-computingrecommendation-systemnand-flash

5일 전3

arXiv논문

NVLLM: 에지 온-디바이스 LLM 추론을 가능하게 하는 3D NAND 중심 아키텍처

NVLLM은 에지 디바이스에서 대규모 언어 모델(LLM)의 추론을 가능하게 하는 혁신적인 3D NAND 중심 아키텍처입니다. 이 아키텍처는 FFN 계산을 플래시 메모리로 오프로드하고 어텐션 메커니즘을 경량 CMOS 로직으로 처리하며, 외부 DRAM 의 의존성을 최소화합니다. 웨이퍼 투 웨이퍼 스태킹 기술을 활용하여 3D NAND를 컴퓨트 파이프라인과 통합함으로써 페이지 레벨의 FFN 가중치 액세스를 구현하고, 기존 GPU 기반 또는 SSD 기반 시스템 대비 월등한 성능 향상을 달성했습니다.

llmedge-ai3d-nand

5일 전8

arXiv논문

Déjà Vu Packing: FPGA 로직 클러스터링 런타임을 패턴 메모이제이션을 통해 최적화하기

본 논문은 복잡한 FPGA 로직 블록(LBs) 아키텍처에서 발생하는 패킹 적법성 체크의 높은 계산 비용 문제를 해결하기 위한 'Déjà Vu' 접근법을 제안합니다. 기존 CAD 플로우는 라우팅 가능성을 확인하는 데 많은 시간을 소요하며, 이 과정에서 중복되는 패턴 검사가 빈번하게 발생함을 분석했습니다. Déjà Vu는 재귀적인 패킹 패턴을 식별하고 그 적법성 체크 결과를 메모이제이션(memoization)할 수 있는 새로운 '패킹 서명 트리' 데이터 구조를 활용하여, VPR 런타임을 대폭 가속화합니다.

fpgacad-toolsplace-and-route

5일 전3

arXiv논문

Tessera: UMA 엣지 가속기를 위한 안전한 근접 라인 레이트 가중치 스트리밍

Tessera는 통합 메모리 아키텍처(UMA) 기반의 엣지 가속기에서 안전하게 근접 라인 단위로 모델 가중치를 스트리밍하기 위한 참조 아키텍처입니다. 기존의 페이지 단위 암호화 방식은 대역폭 병목 현상을 유발하는 반면, Tessera는 AXI 버스트를 가로채 DRAM 가져오기와 동시에 AES-256-CTR 키스트림을 계산하여 평문 가중치를 NPU SRAM으로 직접 스트리밍합니다. 이 설계는 메모리 암호화의 대역폭 페널티를 획기적으로 줄이고, 물리적 추출 및 DMA 공격 등 UMA 환경의 주요 보안 위협으로부터 모델을 보호하는 것을 목표로 합니다.

edge-aihardware-securitymemory-encryption

5일 전6

arXiv논문

Hopper 및 Blackwell GPU 에서 AI 워크로드를 위한 CUDA Tile 평가

본 기술 기사는 NVIDIA의 새로운 GPU 커널 개발 프레임워크인 CUDA Tile (CuTile)을 Hopper 및 Blackwell 아키텍처에서 다양한 AI 워크로드에 걸쳐 평가합니다. CuTile은 프로그래밍 단순화와 효율성 유지를 목표로 하며, GEMM 및 어텐션 작업 벤치마크를 통해 성능과 이식성을 측정했습니다. 결과적으로, CuTile은 최신 데이터센터급 Blackwell(B200)에서 매우 높은 성능을 보여주었으나, 구형 아키텍처에서는 상당한 성능 저하가 관찰되었고, Triton에 비해 포터빌리티 측면에서는 열세임을 입증했습니다.

cuda-tilegpu-accelerationai-workloads

6일 전5

arXiv논문

혼합 기수 초쌍곡선 회전 CORDIC 를 활용한 시그모이드 함수의 하드웨어 효율적인 FPGA 구현

본 논문은 비선형 활성화 함수인 시그모이드(Sigmoid) 함수의 하드웨어 효율적인 FPGA 구현 방안을 제시합니다. 지수 계산이 필요한 시그모이드 함수를 쌍곡선 탄젠트(tanh) 함수와 수학적으로 연결하고, 이를 혼합 기수 초쌍곡선 회전 CORDIC (MR-HRC) 알고리즘으로 처리하여 하드웨어 오버헤드를 최소화했습니다. 제안된 아키텍처는 파이프라인화되어 Xilinx Virtex-7 FPGA에 구현되었으며, 낮은 리소스 사용량과 높은 정확도를 동시에 달성했음을 실험적으로 입증했습니다.

sigmoidfpgacordic

6일 전5

arXiv논문

하이차원 컴퓨팅을 위한 파동 - 기하학적 쌍대성

이 논문은 고차원 컴퓨팅(HDC) 또는 벡터 상징적 구조(VSA)에서 사용되는 이산 양극 정보를 연속적인 광대역 파동 형태로 명시적으로 임베딩하는 방법을 제시합니다. 이를 통해 HDC/VSA의 핵심 원시 연산들(번들링, 치환, 결합, 유사성)을 물리적으로 근거를 둔 파동 영역 실현으로 재정의하고, 이 과정에서 얻은 '파동-기하학적 쌍대성' 개념을 통해 향후 하드웨어 구현에 필요한 핵심 공학적 제약 조건을 제시합니다.

high-dimensional-computingwave-physicsquantum-information

6일 전5

arXiv논문

언어에서 논리로: LLM 및 형식적 표현을 통한 RTL 명제 생성 연결

본 논문은 자연어 명세를 기반으로 SystemVerilog Assertions(SVA)를 자동으로 생성하는 ProofLoop라는 새로운 에이전트를 소개합니다. ProofLoop는 검색 증강 생성(RAG), EDA 도구 호출, 그리고 형식 검증 피드백을 반복적으로 활용하는 '솔버-인-더-루프' 접근 방식을 사용합니다. 이 프레임워크는 설계 컨텍스트를 자율적으로 수집하고, 최대 3회의 검증 라운드를 통해 SVA를 생성 및 개선함으로써 높은 문법적/기능적 정확도를 달성함을 입증했습니다.

llmsvaformal-verification

6일 전5

arXiv논문

통합 확률 논리 메모리 아키텍처를 통한 메모리 레벨 병렬성 극대화

본 연구는 기존 폰 노이만 아키텍처의 한계를 극복하기 위해 자기 터널 접합(MTJ) 기반 메모리에 논리 내 컴퓨팅 기능을 통합한 병렬 확률 컴퓨팅(SC) 아키텍처를 제안합니다. 이 아키텍처는 MTJ 디바이스의 고유한 확률적 특성을 활용하여, 외부 난수 생성 없이도 이진 연산을 확률적 비트 스트림으로 완전히 병렬 변환할 수 있습니다. 궁극적으로 데이터 저장, 비트 스트림 생성, 계산을 메모리 패브릭 내에 통합함으로써 데이터 이동을 최소화하고 메모리 레벨 병렬성을 극대화합니다.

in-memory-computingmtjquantum-probability

6일 전5

arXiv논문

Expert 활성화 패턴을 활용한 다중 노드 Mixture-of-Experts 추론 확장

본 논문은 Mixture-of-Experts (MoE) 아키텍처를 사용하는 대규모 언어 모델(LLMs)의 추론 과정에서 발생하는 병목 현상을 다룹니다. 특히, 여러 노드에 분산된 환경에서 발생하는 비효율적인 토큰 라우팅과 높은 all-to-all 통신 오버헤드를 해결하는 데 초점을 맞춥니다. 연구진은 실제 MoE 모델들의 전문가 활성화 패턴을 분석하여, 부하 불균형 및 도메인별 전문가 선호도 등의 공통 특성을 발견했으며, 이를 바탕으로 워크로드 인식 마이크로 배치 그룹화와 전문가 배치 전략을 제안했습니다. 이 최적화 기법은 노드 간 통신 데이터를 최대 20%까지 줄여 MoE 디코드 지연 시간을 개선하고 가속기 활용도를 높이는 효과를 입증했습니다.

mixture-of-expertsllmsinference

6일 전5

arXiv논문

효율적인 VQ-QAT 및 혼합 벡터/선형 양자화 신경망

본 논문은 벡터 양자화(VQ)를 활용하여 신경망 가중치를 효율적으로 압축하는 세 가지 기법을 개발하고 검증했습니다. 코사인 유사도 기반 할당 방식을 채택하고, 이를 top-1 샘플링 및 스트레이트-through 추정기(STE)와 결합하여 가중 평균 재구성을 제거함으로써 접근 방식을 개선했습니다. 또한, 미분 가능한 신경 구조 검색(NAS)을 활용하여 레이어별 양자화 구성을 최적화하는 방법을 제시합니다.

quantizationvector-quantizationmodel-compression

6일 전3

arXiv논문

저지연 대규모 언어 모델 추론을 위한 하이브리드 JIT-CUDA 그래프 최적화

본 논문은 대규모 언어 모델(LLMs)의 추론 지연 시간 문제를 해결하기 위해 JIT 컴파일과 CUDA 그래프 실행을 결합한 하이브리드 런타임 프레임워크를 제안합니다. 이 프레임워크는 트랜스포머 추론 과정을 정적 및 동적 구성 요소로 분할하여, 각각 CUDA 그래프 재생 또는 JIT 커널 처리를 통해 효율적으로 실행합니다. 실험 결과, LLaMA-2 7B 모델에서 하이브리드 런타임은 첫 토큰 생성 시간(TTFT)을 최대 66.0% 감소시키고 낮은 P99 지연 시간을 달성하여, 짧은 시퀀스 워크로드의 실용적인 배포에 효과적임을 입증했습니다.

llminferencecuda

6일 전5

arXiv논문

TimingLLM: Verilog 에서의 합성 전 타이밍 예측을 위한 두 단계 검색 증강 프레임워크

TimingLLM은 Verilog 코드에서 합성 전 타이밍(WNS/TNS)을 예측하기 위해 설계된 혁신적인 두 단계 검색 증강 LLM 프레임워크입니다. 이 시스템은 경량화된 구조적 단서로 경로 수준의 도착 시간/요구 시간을 추정하는 미세 조정된 LLM과, 가장 가까운 타이밍 레이블 모듈을 검색하여 WNS/TNS를 예측하는 LLM 기반 회귀기로 구성됩니다. TimingLLM은 기존 방법보다 1.3~1.6배 빠르게 실행되면서도 높은 정확도를 달성하여, RTL 반복 프로세스의 속도를 크게 향상시킵니다.

verilogtiming-analysisllm

6일 전3

arXiv논문

Edge 디바이스를 위한 보장된 정규화를 갖는 하드웨어 효율적 Softmax 및 Layer Normalization

본 논문은 트랜스포머 모델에서 높은 하드웨어 비용을 차지하는 Softmax와 Layer Normalization(LayerNorm) 연산을 Edge 디바이스에 최적화한 아키텍처를 제안합니다. 기존 연구들이 순위 기반 작업에 초점을 맞춘 것과 달리, 본 설계는 점수 기반 NLP 및 생성형 AI 응용 프로그램에 필수적인 '보장된 정규화'를 유지하면서 하드웨어 효율성을 극대화했습니다. Verilog HDL로 구현된 이 아키텍처는 기존 대비 면적을 크게 줄이면서도 높은 정확도를 유지하는 것으로 입증되었습니다.

edge-aitransformersoftmax

6일 전4

arXiv논문

에지 AI 의료기기 위한 타이밍 안전성 원천으로서의 아키텍처 격리: 공유 실리콘 플랫폼에 대한 통제된 실험 증거

본 논문은 에지 AI 의료기기의 안전성을 확보하기 위해 아키텍처 격리(architectural isolation)를 통한 타이밍 안전성 원천의 중요성을 제시합니다. 동일한 MobileNetV2 모델을 NVIDIA Jetson Orin Nano Super에서 GPU 가속기(TensorRT FP16)와 CPU(ONNX Runtime FP32) 두 가지 경로로 실행하여, 정확도 유지와 더불어 부하 조건 하에서의 타이밍 제약 조건 위반 문제를 실험적으로 입증했습니다. 연구진은 추론 레이어의 안전성 요구사항을 충족시키기 위해 '안전 임계값 초과율(STER)'과 '지연 시간'의 공동 검증 방법을 제안하며, 이는 향후 FDA 규제 준수 및 임상 적용에 활용될 예정입니다.

edge-aimedical-devicestiming-safety

6일 전6

arXiv논문

FlowPlace: 칩 배치 위한 플로우 매칭

FlowPlace는 반도체 물리 설계의 핵심 단계인 칩 배치 문제를 해결하기 위해 개발된 새로운 프레임워크입니다. 기존 생성형 모델 기반 솔루션들이 가진 무작위 데이터 의존성, 긴 샘플링 시간, 오버랩 문제 등의 한계를 극복했습니다. FlowPlace는 마스크 가이드드 합성 데이터 생성, 플로우 기반 효율적 학습, 그리고 하드 컨스트레인트 샘플링을 통해 높은 PPA 지표와 획기적으로 빠른 속도(10~50배)를 달성하며 오버랩이 없는 레이아웃을 제공합니다.

chip-placementphysical-designgenerative-models

6일 전2

arXiv논문

RowHammer 취약성 카운터 (RVC): 피해자 중심 추적 방식을 통한 RowHammer 탐지 재정의

본 논문은 DRAM의 RowHammer 취약성에 대응하기 위해 'Rowhammer Vulnerability Count (RVC)'라는 새로운 프레임워크를 제안합니다. 기존 완화 기법들이 단순히 행(row)의 활성화 횟수를 추적하는 방식과 달리, RVC는 실제 비트 플립 위험에 처한 행만을 식별하여 선택적으로 리프레시를 발행함으로써 효율성을 극대화합니다. 이로써 불필요한 전력 소모와 시스템 지연을 크게 줄이면서도 기존 방법 대비 높은 보안 성능 향상을 달성했습니다.

rowhammerdram-securitymemory-reliability

6일 전2

arXiv논문

VTA 에서 실행 가능한 임베디드 YOLO-NAS 의 컴파일 및 실행

본 논문은 FPGA 기반 가속기인 VTA(Versatile Tensor Accelerator)를 활용하여 복잡한 CNN 모델을 배포하는 방법을 다룹니다. 기존의 독립형 컴파일러가 가진 한계를 극복하기 위해, 연구진은 VTA 컴파일 체인을 확장하고 자동화함으로써 완전한 CNN 컴파일이 가능하도록 개선했습니다. 이 개선된 시스템은 온칩 메모리를 초과하는 대규모 매개변수를 포함하는 더 큰 CNN까지 지원하며, YOLO-NAS 모델을 성공적으로 컴파일 및 시뮬레이션하여 그 효과를 입증했습니다.

fpgacnnyolo-nas

6일 전6

arXiv논문

근사 행렬 분해를 활용한 TinyML용 CNN 가속기 공동 설계

본 연구는 자원 제약이 엄격한 TinyML 환경에서 CNN 추론의 지연 시간을 최적화하기 위한 새로운 프레임워크를 제시합니다. 이 프레임워크는 근사 행렬 분해(Approximate Matrix Decomposition)를 활용하여 주어진 CNN 모델을 하드웨어 구현에 맞게 최적화하며, 재학습이나 미세 조정 과정 없이도 작동하는 것이 특징입니다. 유전 알고리즘 기반의 접근 방식을 통해 FPGA 타겟용 곱셈기 없는 CNN 가속기를 설계하고, 기존 방식 대비 높은 효율성을 입증했습니다.

tinymlcnn-accelerationmatrix-decomposition

6일 전7

arXiv논문

저비용 뉴로모픽 FPGA 를 위한 이벤트 기반 SNN 배포를 위한 하드웨어 - 소프트웨어 공동 설계

본 논문은 PyTorch로 정의된 스파이킹 신경망(SNN)을 저비용 FPGA 플랫폼에 결정론적으로 배포하기 위한 하드웨어-소프트웨어 공동 설계 프레임워크를 제시합니다. 이 프레임워크는 단일 아티팩트를 통해 가중치, 임계값, 연결성 정보와 시간-첫 번째 스파이크(TTFS) 디코딩 메타데이터를 운반하며, 소프트웨어 참조 및 보드 런타임 모두에서 재사용됩니다. 실험 결과, 이 시스템은 MNIST 분류기에서 높은 정확도(87.40%)를 달성했으며, 낮은 서비스 지연 시간(0.1375 μs/이미지)과 추정 동적 에너지(31.6 nJ/이미지)를 보여주어 저비용 FPGA가 SNN 모델에 대한 재현 가능한 경로를 제공할 수 있음을 입증했습니다.

neuromorphicfpgasnn

4월 27일6

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드