Insights

Edge 디바이스를 위한 보장된 정규화를 갖는 하드웨어 효율적 Softmax 및 Layer Normalization

본 논문은 트랜스포머 모델에서 높은 하드웨어 비용을 차지하는 Softmax와 Layer Normalization(LayerNorm) 연산을 Edge 디바이스에 최적화한 아키텍처를 제안합니다. 기존 연구들이 순위 기반 작업에 초점을 맞춘 것과 달리, 본 설계는 점수 기반 NLP 및 생성형 AI 응용 프로그램에 필수적인 '보장된 정규화'를 유지하면서 하드웨어 효율성을 극대화했습니다. Verilog HDL로 구현된 이 아키텍처는 기존 대비 면적을 크게 줄이면서도 높은 정확도를 유지하는 것으로 입증되었습니다.

4월 28일9

에지 AI 의료기기 위한 타이밍 안전성 원천으로서의 아키텍처 격리: 공유 실리콘 플랫폼에 대한 통제된 실험 증거

본 논문은 에지 AI 의료기기의 안전성을 확보하기 위해 아키텍처 격리(architectural isolation)를 통한 타이밍 안전성 원천의 중요성을 제시합니다. 동일한 MobileNetV2 모델을 NVIDIA Jetson Orin Nano Super에서 GPU 가속기(TensorRT FP16)와 CPU(ONNX Runtime FP32) 두 가지 경로로 실행하여, 정확도 유지와 더불어 부하 조건 하에서의 타이밍 제약 조건 위반 문제를 실험적으로 입증했습니다. 연구진은 추론 레이어의 안전성 요구사항을 충족시키기 위해 '안전 임계값 초과율(STER)'과 '지연 시간'의 공동 검증 방법을 제안하며, 이는 향후 FDA 규제 준수 및 임상 적용에 활용될 예정입니다.

4월 28일8

FlowPlace: 칩 배치 위한 플로우 매칭

FlowPlace는 반도체 물리 설계의 핵심 단계인 칩 배치 문제를 해결하기 위해 개발된 새로운 프레임워크입니다. 기존 생성형 모델 기반 솔루션들이 가진 무작위 데이터 의존성, 긴 샘플링 시간, 오버랩 문제 등의 한계를 극복했습니다. FlowPlace는 마스크 가이드드 합성 데이터 생성, 플로우 기반 효율적 학습, 그리고 하드 컨스트레인트 샘플링을 통해 높은 PPA 지표와 획기적으로 빠른 속도(10~50배)를 달성하며 오버랩이 없는 레이아웃을 제공합니다.

4월 28일6

RowHammer 취약성 카운터 (RVC): 피해자 중심 추적 방식을 통한 RowHammer 탐지 재정의

본 논문은 DRAM의 RowHammer 취약성에 대응하기 위해 'Rowhammer Vulnerability Count (RVC)'라는 새로운 프레임워크를 제안합니다. 기존 완화 기법들이 단순히 행(row)의 활성화 횟수를 추적하는 방식과 달리, RVC는 실제 비트 플립 위험에 처한 행만을 식별하여 선택적으로 리프레시를 발행함으로써 효율성을 극대화합니다. 이로써 불필요한 전력 소모와 시스템 지연을 크게 줄이면서도 기존 방법 대비 높은 보안 성능 향상을 달성했습니다.

4월 28일10

VTA 에서 실행 가능한 임베디드 YOLO-NAS 의 컴파일 및 실행

본 논문은 FPGA 기반 가속기인 VTA(Versatile Tensor Accelerator)를 활용하여 복잡한 CNN 모델을 배포하는 방법을 다룹니다. 기존의 독립형 컴파일러가 가진 한계를 극복하기 위해, 연구진은 VTA 컴파일 체인을 확장하고 자동화함으로써 완전한 CNN 컴파일이 가능하도록 개선했습니다. 이 개선된 시스템은 온칩 메모리를 초과하는 대규모 매개변수를 포함하는 더 큰 CNN까지 지원하며, YOLO-NAS 모델을 성공적으로 컴파일 및 시뮬레이션하여 그 효과를 입증했습니다.

4월 28일10

근사 행렬 분해를 활용한 TinyML용 CNN 가속기 공동 설계

본 연구는 자원 제약이 엄격한 TinyML 환경에서 CNN 추론의 지연 시간을 최적화하기 위한 새로운 프레임워크를 제시합니다. 이 프레임워크는 근사 행렬 분해(Approximate Matrix Decomposition)를 활용하여 주어진 CNN 모델을 하드웨어 구현에 맞게 최적화하며, 재학습이나 미세 조정 과정 없이도 작동하는 것이 특징입니다. 유전 알고리즘 기반의 접근 방식을 통해 FPGA 타겟용 곱셈기 없는 CNN 가속기를 설계하고, 기존 방식 대비 높은 효율성을 입증했습니다.

4월 27일12

저비용 뉴로모픽 FPGA 를 위한 이벤트 기반 SNN 배포를 위한 하드웨어 - 소프트웨어 공동 설계

본 논문은 PyTorch로 정의된 스파이킹 신경망(SNN)을 저비용 FPGA 플랫폼에 결정론적으로 배포하기 위한 하드웨어-소프트웨어 공동 설계 프레임워크를 제시합니다. 이 프레임워크는 단일 아티팩트를 통해 가중치, 임계값, 연결성 정보와 시간-첫 번째 스파이크(TTFS) 디코딩 메타데이터를 운반하며, 소프트웨어 참조 및 보드 런타임 모두에서 재사용됩니다. 실험 결과, 이 시스템은 MNIST 분류기에서 높은 정확도(87.40%)를 달성했으며, 낮은 서비스 지연 시간(0.1375 μs/이미지)과 추정 동적 에너지(31.6 nJ/이미지)를 보여주어 저비용 FPGA가 SNN 모델에 대한 재현 가능한 경로를 제공할 수 있음을 입증했습니다.

4월 27일10

HGQ-LUT: DNN 추론을 위한 빠른 LUT-Aware 학습 및 효율적인 아키텍처

HGQ-LUT는 LUT(루크업 테이블) 기반 신경망의 학습 및 하드웨어 구현 문제를 해결하는 새로운 접근법입니다. 이 방법은 최첨단 하드웨어 효율성을 유지하면서도 GPU에서의 학습 속도를 100배 이상 가속화합니다. HGQ-LUT는 규칙적이고 가속기 친화적인 레이어를 도입하고, 자동화된 비트 정밀도 탐색 및 통합 설계 워크플로우를 제공하여 LUT 기반 DNN을 실제 배포 환경에 실용적으로 적용할 수 있게 합니다.

4월 27일13

CGRA 컴파일링을 위한 다면체 변환으로 사전 최적화 커널 활용

본 논문은 행렬-행렬 곱셈(mmul)을 핵심 패턴으로 하는 계산 커널을 조립식 재구성 가능 배열(CGRA)에 매핑하는 새로운 컴파일링 방법론을 제시합니다. 이 방법론은 다면체 변환(polyhedral transformations)을 사용하여 소스 코드 내에 숨겨진 mmul 연산을 효과적으로 노출시키고, 이를 전문적인 CGRA 커널 스케줄링으로 최적화된 어셈블리로 대체합니다. 그 결과, 직접 명시되지 않은 부분에서도 리소스 활용도를 극대화하여 실행 시간 성능을 크게 향상시키는 것이 가능함을 입증했습니다.

포커스 세션: 멀티모달 파운데이션 모델 가속화를 위한 하드웨어 및 소프트웨어 기술

본 연구는 멀티모달 파운데이션 모델(MFMs)을 가속화하기 위한 하드웨어 및 소프트웨어 공동 설계 방법론을 제시한다. 이 방법론은 트랜스포머 블록에 대한 양자화, 가지치기 등의 압축 기법과 더불어, 모델 캐스케이드 및 최적화된 데이터플로우를 결합하여 계산 및 메모리 요구사항을 획기적으로 줄인다. 궁극적으로 전용 하드웨어 가속기를 활용하고 다양한 워크로드를 공동 최적화함으로써 MFM의 효율적인 배포와 에너지 효율성을 달성하는 것을 목표로 한다.

SIMD 활용을 통한 대수 연산 가속화

본 기술 기사는 대수 연산 가속화를 위해 DigitsOnTurbo(DoT)라는 새로운 접근 방식을 제안합니다. DoT는 기존 알고리즘을 벡터화하는 대신, 독립적이고 데이터 병렬적인 연산을 중심으로 계산 구조를 재구성하여 SIMD의 이점을 극대화합니다. 그 결과, 덧셈 및 뺄셈에서 최대 1.85배, 곱셈에서 최대 2.3배의 속도 향상을 달성하며, 이는 과학 계산과 암호학 분야 전반에 걸쳐 상당한 성능 개선을 가져옵니다.

GR-Evolve: LLM 기반 알고리즘 진화를 통한 설계 적응형 전역 라우팅

GR-Evolve은 대규모 언어 모델(LLM)을 활용하여 알고리즘 코드를 반복적으로 수정함으로써, ASIC 설계의 복잡성 증가와 기존 EDA 도구의 한계를 극복하는 '설계 적응형 (design-adaptive)' 전역 라우팅 프레임워크입니다. 이 시스템은 QoR 기반 피드백을 받아 LLM이 전역 라우터 소스 코드를 자동으로 진화시키고 최적화합니다. 벤치마크 테스트 결과, GR-Evolve는 기존 라우터 대비 와이어 길이(wirelength)를 최대 8.72%까지 감소시키는 성능 향상을 입증하며, LLM 기반의 설계 적응형 EDA 도구링의 잠재력을 보여줍니다.

AutoINV: 고수준 합성 (HLS) 설계에 대한 형식 검증용 자동 불변식 생성 프레임워크

본 연구는 고수준 합성(HLS)으로 생성된 RTL 설계의 기능적 버그나 보안 취약점을 형식 검증을 통해 확인하는 것을 목표로 합니다. 기존 모델 체킹은 큰 규모의 RTL 때문에 계산 시간이 오래 걸리는 문제가 있었습니다. 이에 본 논문은 HLS 설계의 특성을 활용하여, 가장 효과적인 '보조 명제(helper assertions)' 집합을 자동으로 생성하고 선택하는 프레임워크를 제안함으로써 검증 프로세스를 획기적으로 가속화했습니다.

MPS 및 MIG 기술을 활용한 GPU 공간 공동 실행에 대한 종합 평가

본 기사는 GPU 자원의 과소 활용 문제를 해결하기 위한 NVIDIA의 두 가지 주요 기술인 MPS(Multi-Process Service)와 MIG(Multi-Instance GPU)를 비교 평가합니다. 연구 결과에 따르면, MPS는 유연성을 바탕으로 최적화된 시나리오에서 성능을 향상시키고 에너지 효율을 높일 수 있지만, 메모리 경쟁 상황에서는 심각한 성능 저하를 겪습니다. 반면, MIG는 완전한 하드웨어 격리를 제공하여 일관적인 성능 개선을 보장하지만, 높은 오버헤드와 경직성으로 인해 특정 상황에서 성능 저하가 발생할 수 있습니다.

부하 인식 표면 코드 아키텍처 설계로 나아가기

본 논문은 양자 우위를 실현하기 위한 오류 허용 양자 컴퓨팅(FTQC) 아키텍처의 과도한 오버헤드 문제를 해결하는 새로운 설계를 제안합니다. 이 설계는 보조 큐비트 중심 영역 주변에 표면 코드 패치를 배치하여 모든 데이터 큐비트에 균일한 접근성을 제공하며, 부하 기반 배치 방법을 도입해 최적화된 레이아웃을 결정합니다. 또한, 워크로드별로 측정 지연을 줄이는 재구성 가능한 최적화를 통해 효율성과 동시 실행 능력을 크게 향상시켰습니다.

SPAC: 프로토콜 적응형 커스터마이징을 통한 FPGA 기반 네트워크 스위치 자동화

본 논문은 응용 분야별로 상이한 네트워크 요구 사항(저지연 vs. 고처리량)에 대응하기 위해, 프로토콜과 아키텍처를 공동 최적화하여 맞춤형 FPGA 기반 네트워크 스위치를 자동 생성하는 SPAC(Switch and Protocol Adaptive Customization)라는 새로운 접근법을 제안합니다. SPAC는 DSL, 모듈형 HLS 라이브러리, DSE 엔진으로 구성된 통합 워크플로우를 통해 프로토콜-아키텍처 공동 설계를 자동화하며, 다중 충실도 시뮬레이션을 통해 최적의 설계를 신속하게 식별할 수 있습니다. 실험 결과에 따르면, SPAC가 생성한 맞춤형 스위치는 기존 고정 아키텍처 대비 리소스 사용량을 크게 줄이고 지연 시간을 효과적으로 감소시키는 것으로 나타났습니다.

4월 27일7

Versal AI-엔진용 혼합 중요도 애플리케이션 활성화

본 논문은 자율 주행 등 혼합 중요도 시스템(MCSs)에서 AMD Versal SoC의 AI 엔진(AIE)을 활용하는 새로운 방법을 제안합니다. 기존 AIE는 정적 데이터플로우 매핑으로 인해 실시간 작업의 동적 할당이 어려웠으나, 본 연구에서는 런타임에 작업 스위칭이 가능한 '동적 작업 디스패칭 인프라'를 도입했습니다. 이 인프라는 시스템 중요도 모드 변화에 따라 서로 다른 중요도의 작업을 AIE 타일 풀로 유연하게 할당하여, 자율 주행 워크로드에서 높은 활용도와 낮은 오버헤드를 입증하며 AIE의 잠재력을 극대화합니다.

4월 27일7

FPGA 기반 레벨별 탐색을 위한 B+ 트리 인덱스 구조의 효율적 배치 검색 알고리즘

본 논문은 FPGA 환경에 최적화된 B+ 트리 기반 인덱스 검색 알고리즘을 제안합니다. 이 접근법은 레벨별 배치 처리를 통해 메모리 액세스를 줄이고 노드 재사용성을 높여, FPGA에서 병렬 검색 키 비교를 효율적으로 수행할 수 있게 합니다. 고수준 합성(HLS) 기법으로 구현된 커널은 실제 하드웨어 가속기에서 CPU 기반 알고리즘 대비 상당한 성능 향상을 입증했습니다.

삼원성 메모리스티브 논리: 도메인 대수를 통한 추론 하드웨어

본 논문은 메모리스티브 크로스바를 활용하여 수치적 가중치를 저장하는 기존 방식과 달리, 각 접합부에 완전한 도메인 범위의 논리 명제(성립/부정/미정의)를 저장하는 새로운 접근 방식을 제시합니다. 연구진은 도메인 대수 구조를 크로스바 토폴로지로 매핑하여 물리적 레이아웃 자체가 복잡한 추론 의미론을 구현하도록 설계했습니다. 이를 통해 하드웨어 레벨에서 논리 연산(도메인 범위, 삼원 논리, 유형 상속 등)이 가능하며, ICD-11 호흡기 질환 분류 칩과 같은 실제 응용 사례를 성공적으로 시뮬레이션하여 그 효용성을 입증했습니다.