Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AR 432건필터 해제
NPU 통합 기기에서의 HQC 디코딩 구현 및 최적화
NIST 양자 내성 암호 표준 후보인 HQC의 디코딩 과정을 Qualcomm Hexagon NPU(HVX) 환경에 최적화하여 구현하는 연구를 다룹니다. 벡터화된 연산 재설계를 통해 Snapdragon 8 Gen 2 하드웨어에서 에너지 효율을 최대 18.13배 향상시켰습니다.
보안 암호화 가상화 (Secure Encrypted Virtualization)의 형식 검증 (Formal Verification)
본 연구는 AMD SEV의 보안 보장을 강화하기 위해 기밀 VM을 표현하고 검증하는 새로운 형식적 프레임워크를 제안합니다. AMD SEV 사양에 대한 추상화 모델을 구축하여 기밀성, 무결성, 가용성 속성을 엄격하게 검증하는 방법을 다룹니다.
O-POPE: 최소한의 버퍼링 오버헤드를 갖춘 고주파 파이프라인 외적 기반 GEMM 가속
O-POPE는 부동 소수점 연산 장치(FPU) 파이프라인 레지스터를 버퍼로 재사용하여 GEMM 가속의 오버헤드를 최소화하는 새로운 외적 엔진입니다. 높은 동작 주파수와 산술 활용도를 동시에 달성하여 기존 가속기 대비 성능과 에너지 효율을 개선했습니다.
CHIMERA: Transformer 가속기와 QoS 보장이 가능한 563 Gb/s 공유 L2 메모리 서브시스템을 갖춘 유연하고 확장 가능한
초저전력 에지 환경에서 Transformer 모델 추론을 가속화하기 위한 MCU인 Chimera를 소개합니다. 22nm FDX 공정 기반의 이 칩은 고대역폭 L2 메모리 서브시스템과 QoS 보장 기능을 통해 지연 시간을 획기적으로 줄였습니다.
elasticAI.explorer: 하드웨어 인지 신경망 구조 탐색 (Hardware-Aware NAS)을 위한 통합 엔드-투-엔드
elasticAI.explorer는 하드웨어 제약 조건을 고려한 신경망 구조 탐색(NAS)을 위한 통합 Python 프레임워크입니다. YAML 기반 명세와 Docker 기반 툴체인을 통해 모델 설계부터 온디바이스 벤치마킹까지의 전 과정을 자동화합니다.
초소형 스마트 센서 시스템의 심방세동 탐지를 위한 사전 계산된 1D-CNN
초소형 스마트 센서 시스템을 위해 LUT 기반 사전 계산 방식을 적용한 1D-CNN 최적화 연구를 소개합니다. 그룹화된 합성곱(Grouped convolutions)을 통해 확장성 문제를 개선하고, FPGA 자원을 최소화하면서도 높은 심방세동 탐지 성능을 달성했습니다.
FREESS: Tomasulo 방식의 동적 스케줄링을 갖춘 RISC-V 기반 슈퍼스칼라 프로세서용 웹 기반 교육용 시뮬레이터
FREESS는 RISC-V 기반 슈퍼스칼라 프로세서의 명령어 수준 병렬성(ILP)을 학습할 수 있는 웹 기반 오픈 소스 시뮬레이터입니다. Tomasulo 알고리즘을 활용하여 레지스터 리네이밍부터 커밋까지의 전 과정을 사이클 단위로 상세히 시각화합니다.
Roofline 모델에서 Ruggedness(거칠기)로: GEMM 성능 지형의 분해 및 평활화
GEMM 연산 시 발생하는 성능의 불연속성인 '거칠기(ruggedness)'를 분석하는 새로운 프레임워크를 제안합니다. Roofline 모델의 한계를 넘어 하드웨어 기질과 워크로드 간의 상호작용을 분석하고, 소프트웨어 최적화를 통해 성능 변동을 줄이는 방법을 다룹니다.
고급 근접 주소 지정 모드(near addressing modes)를 통한 코드 크기 감소
실시간 시스템의 방대한 전역 변수 처리를 위해 RISC-V ISA에 근접 주소 지정 모드(near addressing modes)를 도입하는 방안을 제안합니다. 이를 통해 코드 크기를 줄이고 성능을 향상시키는 다양한 변형 방식을 논의하고 워크로드로 검증합니다.
메모리 제한적이지만 대역폭 제한적이지는 않음: Batch-1 LLM 디코딩에서의 물리적 AI 추론 격차
물리적 AI 시스템의 Batch-1 디코딩 워크로드가 단순히 메모리 대역폭에만 의존하지 않음을 분석합니다. NVIDIA H100과 L4 GPU 비교를 통해 고성능 GPU일수록 런치 사이드 오버헤드가 지연 시간에 미치는 영향이 크다는 점을 밝혀냈습니다.
전하 공유 기반 가중치 누산기를 갖춘 재구성 가능한 컴퓨팅 인메모리 매크로
SRAM 기반 아날로그 컴퓨팅 인메모리(CIM)의 ADC 오버헤드, 지연 시간, 전압 제한 문제를 해결하기 위한 재구성 가능한 인메모리 매크로를 제안합니다. IMADC, BSCHA, 듀얼 8T 비트셀 기술을 통해 면적 효율성과 연산 속도, 선형성을 크게 개선했습니다.
HE^2: 효율적인 완전 동형 암호 (FHE)를 위한 통신 경량 이기종 아키텍처
CKKS 완전 동형 암호(FHE)의 연산 효율을 높이기 위해 ASIC과 NMP의 장점을 결합한 이기종 xPU-xMU 아키텍처인 $HE^2$를 제안합니다. DFG 최적화와 그룹 수준 파이프라인을 통해 이기종 간 통신 병목을 해결하여 성능과 에너지 효율을 대폭 개선했습니다.
MixFP4: 적응형 FP4/INT4 블록 표현을 통한 NVFP4 성능 향상
MixFP4는 NVFP4의 한계를 극복하기 위해 제안된 적응형 FP4/INT4 혼합 마이크로 포맷 기술입니다. 추가 메타데이터 없이 E2M1과 E1M2 포맷을 선택적으로 사용하여 LLM 양자화의 정확도와 견고성을 높입니다.
Ring VCO로의 TSV 기판 노이즈 결합에 대한 설계 중심 모델링
3D-IC 및 칩렛 시스템에서 TSV로 인해 발생하는 기판 노이즈가 RF 블록의 스펙트럼 순도에 미치는 영향을 분석합니다. 22nm FD-SOI 공정 기반의 링 VCO를 활용하여 TSV의 기생 결합 경로를 모델링하고 노이즈 주입 영향을 정량화했습니다.
elasticAI.explorer: 하드웨어 인지 신경망 구조 탐색 (Hardware-Aware NAS)을 위한 통합 엔드-투-엔드
elasticAI.explorer는 하드웨어 제약 조건을 고려한 신경망 구조 탐색(NAS)을 위한 통합 Python 프레임워크입니다. YAML 기반 명세와 Docker 기반 툴체인을 통해 모델 설계부터 온디바이스 벤치마킹까지의 전 과정을 자동화합니다.
Rotary GPU: 제한된 GPU 메모리 환경에서 대규모 Mixture-of-Experts 모델을 위한 로컬 실행 경로 탐색
제한된 GPU 메모리 환경에서 대규모 MoE 모델을 효율적으로 실행하기 위한 Rotary GPU 방식을 제안합니다. 소비자용 노트북 환경에서 Qwen3.6-35B-A3B 모델을 성공적으로 로컬 실행하며 배포 접근성을 탐색했습니다.
전수 에피스타시스 탐지를 위한 상수 깊이 임계값 회로 (Constant Depth Threshold Circuits)
뉴로모픽 하드웨어를 활용하여 생물정보학의 에피스타시스 탐지 문제를 효율적으로 해결하는 상수 깊이 임계값 회로를 제안합니다. LIF 뉴런과 파이프라인 방식을 통해 복잡도 오버헤드 없이 로그-선형 공간 내에서 계산을 수행합니다.
초소형 스마트 센서 시스템의 심방세동 탐지를 위한 사전 계산된 1D-CNN
초소형 스마트 센서 시스템을 위해 LUT 기반 사전 계산 방식을 적용한 1D-CNN 최적화 연구를 소개합니다. 그룹화된 합성곱을 활용해 확장성 문제를 개선하고, FPGA 상에서 DSP나 BRAM 없이도 높은 정확도로 심방세동을 탐지하는 하드웨어 가속기 구현 방법을 제안합니다.
Context-aware Simopt-Power: 구조적 데이터와 시뮬레이션 메타데이터를 활용한 FPGA 설계 최적화
FPGA 설계 시 버려지는 시뮬레이션 메타데이터와 구조적 특징을 결합하여 전력을 최적화하는 Context-aware Simopt-Power 프레임워크를 제안합니다. 기존 방식의 면적 오버헤드 문제를 해결하며, 아키텍처 인식 파라미터를 통해 전력과 지연 시간 간의 효율적인 트레이드오프를 달성합니다.
NPU가 항상 더 빠르지는 않은 이유: 모바일 LLM 추론에 대한 스테이지 레벨 분석
모바일 SoC 환경에서 LLM 추론 시 CPU와 NPU의 성능을 스테이지별로 분석한 연구입니다. 프리필 단계에서는 CPU가, 디코드 단계에서는 NPU의 효율이 제한적임을 밝히고 NPU 설계 가이드라인을 제시합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.