본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AR 432필터 해제

arXiv논문

미래 G 기술용 밀리미터파 및 서브 테라헤르츠/테라헤르츠 발진기 최근 발전 동향

본 논문은 5G, 6G 등 차세대 시스템에 필수적인 100 GHz 미만의 밀리미터파(mm-wave) 및 100 GHz 이상의 서브 테라헤르츠/테라헤르츠(sub-THz/THz) 발진기의 최신 발전 동향을 포괄적으로 검토합니다. CMOS, SiGe, III-V 등 다양한 반도체 기술 기반의 설계 접근 방식을 성능 지표(위상 잡음, 출력 전력, 효율성 등)를 기준으로 분석하며, 고성능 및 신뢰성 확보에 필요한 주요 과제와 미래 방향성을 제시합니다.

4월 30일10
arXiv논문

AHASD: 모바일 기기용 LLM 적응형 초안 생성 추상적 디코딩을 위한 비동기 이종 아키텍처

본 논문은 모바일 NPU-PIM 시스템에서 LLM 추론 효율성을 극대화하기 위해 AHASD라는 비동기 이종 아키텍처를 제안합니다. AHASD는 작업 수준의 DLM-TLM 분리를 통해 PIM에서 병렬 초안 생성이 가능하고, 단일 NPU에서 검증을 수행하여 자원 낭비를 줄입니다. 또한 엔트로피 및 시간 인식을 통합한 정교한 초안 제어 메커니즘으로 알고리즘 실행과 사전 검증 타이밍을 동적으로 관리하며, LPDDR5-PIM에 주의력 유닛과 게이트드 스케줄링 유닛을 통합하여 높은 처리량과 에너지 효율성 향상을 달성했습니다.

4월 30일16
arXiv논문

Salca: 효율적인 긴 컨텍스트 어텐션 디코딩을 위한 희소성 인식 하드웨어 가속기

본 기술 기사는 대형 언어 모델(LLM)이 긴 컨텍스트를 처리할 때 발생하는 계산 및 메모리 병목 현상을 해결하기 위한 하드웨어 가속기를 제안합니다. 소프트웨어적으로는 초저정밀도 양자화와 특징 희소성을 결합한 '이중 압축 동적 희소 어텐션'을 도입하고, 근사 Top-K 선택으로 복잡도를 최적화했습니다. 하드웨어 측면에서는 이러한 희소성 및 긴 컨텍스트의 상호작용에 맞춰 계산과 메모리 액세스를 깊이 있게 최적화한 ASIC 가속기를 설계하여, 기존 대비 월등히 높은 속도와 에너지 효율을 달성했습니다.

4월 29일11
arXiv논문

삼원 가중치 양자화 (예: BitNet b1.58) 는 대형 언어 모델 (LLM) 추론 시 메모리 대역폭 병목 현상을 완화할 유망한 경로를 제시

본 연구는 대형 언어 모델(LLM) 추론 시 메모리 대역폭 병목 현상을 완화하는 삼원 가중치 양자화(Ternary Weight Quantization, 예: BitNet b1.58)를 위한 새로운 하드웨어 아키텍처 설계를 제안합니다. 기존 방식의 비효율적인 디양자화 문제를 해결하기 위해 룩업 테이블(LUT) 기반 가속기 설계 공간을 형식화하고 오픈소스 생성기를 제공했습니다. 이 프레임워크는 전체 아키텍처 공간 탐색을 가능하게 하여, 다양한 설계를 체계적으로 비교 평가할 수 있는 공통 기반을 마련하며, 기존 대비 상당한 면적 감소 및 성능 향상을 입증합니다.

4월 29일11
arXiv논문

클라우드에서 엣지까지: 하드웨어 가속을 갖춘 싱글보드 컴퓨터에서의 LLM 추론 벤치마킹

본 논문은 클라우드 의존성 및 데이터 프라이버시 문제를 해결하기 위해, 하드웨어 가속기를 탑재한 싱글보드 컴퓨터(SBC)에서의 LLM 추론 성능을 다차원적으로 평가하는 새로운 벤치마킹 방법론을 제안합니다. 이 방법론은 NPU와 GPU 같은 다양한 가속기의 활용이 전력 효율성, 물리적 크기, 토큰 처리량 등 여러 요소에 미치는 트레이드오프를 정량화하여 보여줍니다. 이를 통해 무인 차량이나 현장 환경과 같이 연결성이 제한되고 프라이버시가 중요한 곳에 생성형 AI를 실용적으로 배포할 수 있는 지침을 제공합니다.

4월 29일15
arXiv논문

고속 3D CNN 을 위한 광자원자 공간 - 시간 홀로그래픽 상관기

본 논문은 계산 복잡도가 높은 3D CNN의 한계를 극복하기 위해, 광자원자 공간-시간 홀로그래픽 상관기(STHC)를 활용하는 하이브리드 광전자 구조를 제안합니다. 이 시스템은 냉각 루비듐 원자 배열을 이용해 시간 정보를 저장하고, 이를 전통적인 2D 공간 상관기와 결합하여 공간 및 시간을 동시에 처리합니다. 실험 결과, 대규모 커널에서 높은 분류 정확도와 잠재적으로 매우 빠른 작동 속도를 달성하며, 비디오 분류 가속화에 새로운 방향을 제시했습니다.

4월 29일13
arXiv논문

강화학습이 전문가 수준의 배치 (Placement) 를 달성할 수 있는 방법은 무엇인가?

본 논문은 강화학습(RL) 기반의 칩 배치 최적화가 전문가 수준의 레이아웃을 달성하는 데 어려움을 겪는 문제를 다룹니다. 기존 RL 방법들이 와이어 길이 같은 단일 목표에만 집중하여 성능 한계를 보인다고 지적하며, 이 문제의 핵심 원인을 보상 설계의 부족에서 찾았습니다. 이를 해결하기 위해, 본 연구는 전문가 레이아웃에서 직접 학습하여 암묵적인 보상을 포착하는 새로운 프레임워크를 제안합니다. 이 방법은 최종 결과물부터 단계별 전문가 궤적을 추론하고, 이를 데모나 선호도로 활용하여 성능과 일반화 능력을 크게 향상시킵니다.

4월 29일13
arXiv논문

FusionCIM: 퓨전 기반 컴퓨팅-인-메모리 아키텍처를 통한 LLM 추론 가속화

FusionCIM은 대규모 언어 모델(LLM) 추론 가속화를 위해 오퍼레이터 퓨전 기반의 컴퓨팅-인-메모리(CIM) 아키텍처를 제안합니다. 이 아키텍처는 하이브리드 CIM 파이프라인, 데이터 재사용성을 극대화하는 QO-stationary 데이터플로우, 그리고 패턴 인식 온라인-softmax 메커니즘을 통합하여 효율성을 높였습니다. LLaMA-3 모델 테스트 결과, FusionCIM은 기존 SOTA 대비 에너지 절감 및 속도 향상에서 뛰어난 성능을 보여주었습니다.

4월 29일15
arXiv논문

RecFlash: 주파수 기반 데이터 매핑을 통한 저장 내 컴퓨팅 기반 고속 추천 시스템

본 논문은 사용자 데이터 증가로 인한 실시간 추천 시스템 처리의 어려움을 해결하기 위해 NAND 플래시 기반 저장 내 컴퓨팅(In-Storage Computing, ISC)을 활용한 고속 추천 추론 가속기인 RecFlash를 제안합니다. 기존 ISC 아키텍처는 추천 작업의 불규칙하고 랜덤한 메모리 액세스 패턴 때문에 내부 대역폭 이용 효율이 낮다는 문제가 있었습니다. RecFlash는 주파수 기반 데이터 매핑 알고리즘을 적용하여 이러한 비효율성을 개선함으로써, 지연 시간과 에너지 소비를 획기적으로 줄이는 성능 향상을 입증했습니다.

4월 29일9
arXiv논문

NVLLM: 에지 온-디바이스 LLM 추론을 가능하게 하는 3D NAND 중심 아키텍처

NVLLM은 에지 디바이스에서 대규모 언어 모델(LLM)의 추론을 가능하게 하는 혁신적인 3D NAND 중심 아키텍처입니다. 이 아키텍처는 FFN 계산을 플래시 메모리로 오프로드하고 어텐션 메커니즘을 경량 CMOS 로직으로 처리하며, 외부 DRAM 의 의존성을 최소화합니다. 웨이퍼 투 웨이퍼 스태킹 기술을 활용하여 3D NAND를 컴퓨트 파이프라인과 통합함으로써 페이지 레벨의 FFN 가중치 액세스를 구현하고, 기존 GPU 기반 또는 SSD 기반 시스템 대비 월등한 성능 향상을 달성했습니다.

4월 29일14
arXiv논문

Déjà Vu Packing: FPGA 로직 클러스터링 런타임을 패턴 메모이제이션을 통해 최적화하기

본 논문은 복잡한 FPGA 로직 블록(LBs) 아키텍처에서 발생하는 패킹 적법성 체크의 높은 계산 비용 문제를 해결하기 위한 'Déjà Vu' 접근법을 제안합니다. 기존 CAD 플로우는 라우팅 가능성을 확인하는 데 많은 시간을 소요하며, 이 과정에서 중복되는 패턴 검사가 빈번하게 발생함을 분석했습니다. Déjà Vu는 재귀적인 패킹 패턴을 식별하고 그 적법성 체크 결과를 메모이제이션(memoization)할 수 있는 새로운 '패킹 서명 트리' 데이터 구조를 활용하여, VPR 런타임을 대폭 가속화합니다.

4월 28일8
arXiv논문

Tessera: UMA 엣지 가속기를 위한 안전한 근접 라인 레이트 가중치 스트리밍

Tessera는 통합 메모리 아키텍처(UMA) 기반의 엣지 가속기에서 안전하게 근접 라인 단위로 모델 가중치를 스트리밍하기 위한 참조 아키텍처입니다. 기존의 페이지 단위 암호화 방식은 대역폭 병목 현상을 유발하는 반면, Tessera는 AXI 버스트를 가로채 DRAM 가져오기와 동시에 AES-256-CTR 키스트림을 계산하여 평문 가중치를 NPU SRAM으로 직접 스트리밍합니다. 이 설계는 메모리 암호화의 대역폭 페널티를 획기적으로 줄이고, 물리적 추출 및 DMA 공격 등 UMA 환경의 주요 보안 위협으로부터 모델을 보호하는 것을 목표로 합니다.

4월 28일12
arXiv논문

Hopper 및 Blackwell GPU 에서 AI 워크로드를 위한 CUDA Tile 평가

본 기술 기사는 NVIDIA의 새로운 GPU 커널 개발 프레임워크인 CUDA Tile (CuTile)을 Hopper 및 Blackwell 아키텍처에서 다양한 AI 워크로드에 걸쳐 평가합니다. CuTile은 프로그래밍 단순화와 효율성 유지를 목표로 하며, GEMM 및 어텐션 작업 벤치마크를 통해 성능과 이식성을 측정했습니다. 결과적으로, CuTile은 최신 데이터센터급 Blackwell(B200)에서 매우 높은 성능을 보여주었으나, 구형 아키텍처에서는 상당한 성능 저하가 관찰되었고, Triton에 비해 포터빌리티 측면에서는 열세임을 입증했습니다.

4월 28일9
arXiv논문

혼합 기수 초쌍곡선 회전 CORDIC 를 활용한 시그모이드 함수의 하드웨어 효율적인 FPGA 구현

본 논문은 비선형 활성화 함수인 시그모이드(Sigmoid) 함수의 하드웨어 효율적인 FPGA 구현 방안을 제시합니다. 지수 계산이 필요한 시그모이드 함수를 쌍곡선 탄젠트(tanh) 함수와 수학적으로 연결하고, 이를 혼합 기수 초쌍곡선 회전 CORDIC (MR-HRC) 알고리즘으로 처리하여 하드웨어 오버헤드를 최소화했습니다. 제안된 아키텍처는 파이프라인화되어 Xilinx Virtex-7 FPGA에 구현되었으며, 낮은 리소스 사용량과 높은 정확도를 동시에 달성했음을 실험적으로 입증했습니다.

4월 28일10
arXiv논문

하이차원 컴퓨팅을 위한 파동 - 기하학적 쌍대성

이 논문은 고차원 컴퓨팅(HDC) 또는 벡터 상징적 구조(VSA)에서 사용되는 이산 양극 정보를 연속적인 광대역 파동 형태로 명시적으로 임베딩하는 방법을 제시합니다. 이를 통해 HDC/VSA의 핵심 원시 연산들(번들링, 치환, 결합, 유사성)을 물리적으로 근거를 둔 파동 영역 실현으로 재정의하고, 이 과정에서 얻은 '파동-기하학적 쌍대성' 개념을 통해 향후 하드웨어 구현에 필요한 핵심 공학적 제약 조건을 제시합니다.

4월 28일9
arXiv논문

언어에서 논리로: LLM 및 형식적 표현을 통한 RTL 명제 생성 연결

본 논문은 자연어 명세를 기반으로 SystemVerilog Assertions(SVA)를 자동으로 생성하는 ProofLoop라는 새로운 에이전트를 소개합니다. ProofLoop는 검색 증강 생성(RAG), EDA 도구 호출, 그리고 형식 검증 피드백을 반복적으로 활용하는 '솔버-인-더-루프' 접근 방식을 사용합니다. 이 프레임워크는 설계 컨텍스트를 자율적으로 수집하고, 최대 3회의 검증 라운드를 통해 SVA를 생성 및 개선함으로써 높은 문법적/기능적 정확도를 달성함을 입증했습니다.

4월 28일11
arXiv논문

통합 확률 논리 메모리 아키텍처를 통한 메모리 레벨 병렬성 극대화

본 연구는 기존 폰 노이만 아키텍처의 한계를 극복하기 위해 자기 터널 접합(MTJ) 기반 메모리에 논리 내 컴퓨팅 기능을 통합한 병렬 확률 컴퓨팅(SC) 아키텍처를 제안합니다. 이 아키텍처는 MTJ 디바이스의 고유한 확률적 특성을 활용하여, 외부 난수 생성 없이도 이진 연산을 확률적 비트 스트림으로 완전히 병렬 변환할 수 있습니다. 궁극적으로 데이터 저장, 비트 스트림 생성, 계산을 메모리 패브릭 내에 통합함으로써 데이터 이동을 최소화하고 메모리 레벨 병렬성을 극대화합니다.

4월 28일9
arXiv논문

Expert 활성화 패턴을 활용한 다중 노드 Mixture-of-Experts 추론 확장

본 논문은 Mixture-of-Experts (MoE) 아키텍처를 사용하는 대규모 언어 모델(LLMs)의 추론 과정에서 발생하는 병목 현상을 다룹니다. 특히, 여러 노드에 분산된 환경에서 발생하는 비효율적인 토큰 라우팅과 높은 all-to-all 통신 오버헤드를 해결하는 데 초점을 맞춥니다. 연구진은 실제 MoE 모델들의 전문가 활성화 패턴을 분석하여, 부하 불균형 및 도메인별 전문가 선호도 등의 공통 특성을 발견했으며, 이를 바탕으로 워크로드 인식 마이크로 배치 그룹화와 전문가 배치 전략을 제안했습니다. 이 최적화 기법은 노드 간 통신 데이터를 최대 20%까지 줄여 MoE 디코드 지연 시간을 개선하고 가속기 활용도를 높이는 효과를 입증했습니다.

4월 28일11
arXiv논문

효율적인 VQ-QAT 및 혼합 벡터/선형 양자화 신경망

본 논문은 벡터 양자화(VQ)를 활용하여 신경망 가중치를 효율적으로 압축하는 세 가지 기법을 개발하고 검증했습니다. 코사인 유사도 기반 할당 방식을 채택하고, 이를 top-1 샘플링 및 스트레이트-through 추정기(STE)와 결합하여 가중 평균 재구성을 제거함으로써 접근 방식을 개선했습니다. 또한, 미분 가능한 신경 구조 검색(NAS)을 활용하여 레이어별 양자화 구성을 최적화하는 방법을 제시합니다.

4월 28일9
arXiv논문

저지연 대규모 언어 모델 추론을 위한 하이브리드 JIT-CUDA 그래프 최적화

본 논문은 대규모 언어 모델(LLMs)의 추론 지연 시간 문제를 해결하기 위해 JIT 컴파일과 CUDA 그래프 실행을 결합한 하이브리드 런타임 프레임워크를 제안합니다. 이 프레임워크는 트랜스포머 추론 과정을 정적 및 동적 구성 요소로 분할하여, 각각 CUDA 그래프 재생 또는 JIT 커널 처리를 통해 효율적으로 실행합니다. 실험 결과, LLaMA-2 7B 모델에서 하이브리드 런타임은 첫 토큰 생성 시간(TTFT)을 최대 66.0% 감소시키고 낮은 P99 지연 시간을 달성하여, 짧은 시퀀스 워크로드의 실용적인 배포에 효과적임을 입증했습니다.

4월 28일9

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.