Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AR 124건필터 해제
AME-PIM: 메모리가 다음 텐서 가속기가 될 수 있을까?
본 연구는 고대역폭 메모리(HBM-PIM)를 활용하여 인공지능 가속기 백엔드로 사용하는 방안을 제시합니다. 기존 HBM-PIM의 제한적인 명령어 세트 문제를 해결하기 위해 RISC-V Attached Matrix Extension (AME)을 의미론적 참조로 사용하여, AME 명령어를 메모리 내 마이크로 커널과 데이터 명령어로 매핑하는 PEP 기반 실행 모델을 제안했습니다. 이 접근 방식은 원본 감축 지원 없이도 요소별 연산, GEMV, GEMM 등의 핵심 행렬 연산을 호스트 개입 및 외부 전송을 최소화하며 PIM 모드에서 효율적으로 수행할 수 있음을 입증했습니다.
RuC: HDL-무관 규칙 완성 벤치마크 생성
본 논문은 대형 언어 모델(LLMs)을 레지스터 전달 수준(RTL) 개발에 통합하는 추세 속에서 발생하는 기존 코드 완성 벤치마크의 한계를 극복하기 위해 '언어 무관 규칙 완성(RuC)' 프레임워크를 제안합니다. RuC는 문법 기반이며 규칙 선택 가능한 벤치마크 생성기로, 입력된 하드웨어 기술 언어(HDL) 소스 코드 세트로부터 자동으로 RTL 코드 완성 작업을 생성할 수 있습니다. 이 프레임워크는 마스킹을 통해 특정 영역의 코드를 제어하고 주변 컨텍스트를 활용하여 모델의 코드 이해 능력을 평가함으로써, 할당부터 전체 논리 블록 재구성까지 다양한 범위에서 LLM 성능을 측정할 수 있게 합니다.
NeuroRing: 다중 FPGA 양방향 링 토폴로지와 스트림-데이터플로우 아키텍처를 통한 스파이킹 신경망 확장
NeuroRing은 스트림-데이터플로우 아키텍처와 양방향 링 토폴로지를 결합하여 대규모 스파이킹 신경망(SNN)을 가속화하는 모듈형 FPGA 기반 플랫폼입니다. 이 시스템은 고수준 합성(HLS)을 통해 프로그래밍 가능하며, 단일 또는 다중 FPGA 배포를 지원하여 확장성이 뛰어납니다. 벤치마크 결과에 따르면 NeuroRing은 실시간보다 빠른 실행 속도를 달성하고 우수한 에너지 효율성을 보여주어, 신경과학 시뮬레이션 및 이벤트 기반 애플리케이션 모두에 유연하게 적용될 수 있음을 입증했습니다.
AHASD: 모바일 기기용 LLM 적응형 초안 생성 추상적 추론을 위한 비동기 이종 아키텍처
본 논문은 모바일 NPU-PIM 시스템에서 LLM의 추론 효율성을 높이는 적응형 초안 생성(Speculative Decoding)을 위한 새로운 비동기 이종 아키텍처인 AHASD를 제안합니다. AHASD는 작업 수준으로 DLM과 TLM을 분리하여 PIM에서 병렬 초안 생성이 가능하게 하고, 엔트로피-히스토리 인식 및 시간 인식 사전 검증 제어를 통합하여 자원 낭비를 최소화합니다. 실험 결과, AHASD는 기존 GPU 전용 베이스라인 대비 최대 4.2배의 처리량 향상과 5.6배의 에너지 효율성 향상을 달성하며 높은 성능을 입증했습니다.
N-ary 크로스바 아키텍처에서의 멀티비트 신경 추론
본 논문은 메모리 내 컴퓨팅(IMC)을 활용하여 에너지 효율적인 신경망 추론을 수행하는 N-ary 크로스바 아키텍처를 위한 시뮬레이션 프레임워크를 제시합니다. (4x4) 4 상태 자기 터널 접합(MTJ) 크로스바 어레이를 사용하여 XOR 및 MNIST 분류 작업에 성공적으로 추론을 수행했으며, 소프트웨어 기준선 대비 높은 성능을 달성했습니다. 연구진은 가중치 양자화를 주요 오차 원인으로 분석하고, 랜덤 노이즈와 체계적 비이상성의 영향을 연구하여 총 MVM 오차를 최소화하는 최적의 셀당 상태 수를 도출했습니다.
RISC-V 설계에 대한 Verification and Validation (V&V)-in-the-Loop: BZL 의 전체적 비전
바르셀로나 제타스케일 랩(BZL)은 RISC-V 기반 고성능 컴퓨팅 칩 설계를 위해 포괄적인 프리실리콘 검증 및 검증(V&V) 방법론을 제시합니다. 이 접근법은 UVM 기반 RTL 검증 환경, 시스템 수준의 FPGA 기반 하드웨어-소프트웨어 검증 플랫폼, 그리고 지속적인 자동화를 위한 CI/CD 흐름이라는 세 가지 상호 보완적인 플랫폼을 통합합니다. BZL의 V&V 루프는 RISC-V 칩 설계의 기능적 정확성과 시스템 수준 검증을 보장하는 견고하고 확장 가능한 기반을 제공하며, 유럽의 전략적 하드웨어 개발 이니셔티브에 기여할 것으로 기대됩니다.
SafeTune: RTL 코드 생성을 위한 LLM 파인튜닝中的数据 독소 공격 완화
SafeTune은 대형 언어 모델(LLMs)을 사용하여 RTL 코드와 같은 하드웨어 코드를 생성할 때 발생할 수 있는 데이터 독소 공격에 대응하기 위해 설계된 프레임워크입니다. 이 프레임워크는 구조적 속성을 모델링하는 그래프 신경망(GNN)과 텍스트 임베딩 및 XGBoost 분류기를 활용한 의미론적 검증 모듈을 결합합니다. SafeTune은 이러한 구조적 지식과 의미론적 지식을 통합하여, 학습 데이터의 무결성을 유지하면서도 독소 공격에 대한 LLM 기반 RTL 생성의 견고성과 신뢰성을 크게 향상시킵니다.
EMiX: 단일 FPGA 한계를 넘어선 시뮬레이션
EMiX는 단일 FPGA의 하드웨어 자원 한계를 극복하고 대규모 다중 코어 RISC-V 아키텍처를 시뮬레이션할 수 있도록 설계된 확장 가능한 다중 FPGA 프레임워크입니다. 이 플랫폼은 모놀리식 설계를 여러 구성 요소로 분할하여 상호 연결된 여러 FPGA에 배포하며, RTL 재설계 없이도 높은 확장성과 성능을 유지합니다. 연구진은 8개의 Alveo U55c FPGA를 사용하여 64 코어 아키텍처의 전체 시스템 실행(Linux 부팅 포함)을 성공적으로 시연했습니다.
No Tile Left Behind: Surface-Code Architecture 를 위한 멀티프로그래밍
본 논문은 오류 정정 양자 컴퓨팅(FTQC) 환경에서 발생하는 복잡한 멀티프로그래밍 문제를 다룹니다. FTQC는 데이터, 어닐라, 마법 상태 서비스 등 구조화된 자원 플로어플랜을 가지므로, 단순한 큐비트 풀 분할보다 훨씬 복잡합니다. 연구진은 이러한 구조적 제약과 런타임 영향을 포착하는 형식적 프레임워크를 개발했으며, 이를 통해 합성 클리포드+T 워크로드 시뮬레이션에서 시스템 속도를 크게 향상시키고 성능을 개선했습니다.
AMMA: 저지연 1M 컨텍스트 어텐션 서빙을 위한 멀티 칩렛 메모리 중심 아키텍처
AMMA는 초장문 컨텍스트(1M 토큰) 환경에서 발생하는 메모리 바운드 어텐션 병목 현상을 해결하기 위해 제안된 멀티 칩렛 메모리 중심 아키텍처입니다. 기존의 GPU 중심 설계가 디코드 단계의 메모리 요구 사항과 불일치하여 지연 시간을 증가시키고 전력을 낭비하는 문제를 개선합니다. AMMA는 컴퓨팅 다이를 HBM-PNM 큐브로 대체하고, 최적화된 마이크로아키텍처 및 새로운 병렬화 스킴을 도입하여 기존 대비 현저히 낮은 어텐션 지연 시간과 에너지 소비를 달성했습니다.
RAG-Enhanced Kernel-Based Heuristic Synthesis (RKHS): Large Language Models 를
본 논문은 대형 언어 모델(LLMs)이 단순한 코드 생성을 넘어 재사용 가능한 최적화 휴리스틱을 체계적으로 합성할 수 있는 새로운 방법론, RAG-Enhanced Kernel-Based Heuristic Synthesis (RKHS)를 제안합니다. RKHS는 검색 증강 생성(RAG), 컴팩트 커널 템플릿, 그리고 자기 피드백 루프를 통합하여 LLM의 성능을 향상시킵니다. 이 방법론은 고수준 합성(HLS)의 지연 시간 최소화 리스트 스케줄링에 적용되었으며, 기존 대비 평균 스케줄 길이를 최대 11% 단축하는 성과를 보였습니다.
Sparse-on-Dense: 밀집 행렬 곱셈 가속기에서 희소 신경망의 면적 및 에너지 효율적인 연산
심층 신경망의 크기가 커지면서 발생하는 높은 계산 복잡도와 메모리 요구 사항을 해결하기 위해 가지치기(Pruning)를 통해 희소 신경망이 활용되고 있습니다. 기존의 전용 희소 가속기는 인덱스 매칭 회로 때문에 면적과 전력 효율성 문제가 있었습니다. 본 논문은 이러한 문제를 해결하고자, 밀집 행렬 곱셈 하드웨어 가속기(Sparse-on-Dense)를 사용하여 희소 신경망 연산을 수행하는 면적 및 에너지 효율적인 방법을 제안합니다.
미래 G 기술용 밀리미터파 및 서브 테라헤르츠/테라헤르츠 발진기 최근 발전 동향
본 논문은 5G, 6G 등 차세대 시스템에 필수적인 100 GHz 미만의 밀리미터파(mm-wave) 및 100 GHz 이상의 서브 테라헤르츠/테라헤르츠(sub-THz/THz) 발진기의 최신 발전 동향을 포괄적으로 검토합니다. CMOS, SiGe, III-V 등 다양한 반도체 기술 기반의 설계 접근 방식을 성능 지표(위상 잡음, 출력 전력, 효율성 등)를 기준으로 분석하며, 고성능 및 신뢰성 확보에 필요한 주요 과제와 미래 방향성을 제시합니다.
AHASD: 모바일 기기용 LLM 적응형 초안 생성 추상적 디코딩을 위한 비동기 이종 아키텍처
본 논문은 모바일 NPU-PIM 시스템에서 LLM 추론 효율성을 극대화하기 위해 AHASD라는 비동기 이종 아키텍처를 제안합니다. AHASD는 작업 수준의 DLM-TLM 분리를 통해 PIM에서 병렬 초안 생성이 가능하고, 단일 NPU에서 검증을 수행하여 자원 낭비를 줄입니다. 또한 엔트로피 및 시간 인식을 통합한 정교한 초안 제어 메커니즘으로 알고리즘 실행과 사전 검증 타이밍을 동적으로 관리하며, LPDDR5-PIM에 주의력 유닛과 게이트드 스케줄링 유닛을 통합하여 높은 처리량과 에너지 효율성 향상을 달성했습니다.
Salca: 효율적인 긴 컨텍스트 어텐션 디코딩을 위한 희소성 인식 하드웨어 가속기
본 기술 기사는 대형 언어 모델(LLM)이 긴 컨텍스트를 처리할 때 발생하는 계산 및 메모리 병목 현상을 해결하기 위한 하드웨어 가속기를 제안합니다. 소프트웨어적으로는 초저정밀도 양자화와 특징 희소성을 결합한 '이중 압축 동적 희소 어텐션'을 도입하고, 근사 Top-K 선택으로 복잡도를 최적화했습니다. 하드웨어 측면에서는 이러한 희소성 및 긴 컨텍스트의 상호작용에 맞춰 계산과 메모리 액세스를 깊이 있게 최적화한 ASIC 가속기를 설계하여, 기존 대비 월등히 높은 속도와 에너지 효율을 달성했습니다.
삼원 가중치 양자화 (예: BitNet b1.58) 는 대형 언어 모델 (LLM) 추론 시 메모리 대역폭 병목 현상을 완화할 유망한 경로를 제시
본 연구는 대형 언어 모델(LLM) 추론 시 메모리 대역폭 병목 현상을 완화하는 삼원 가중치 양자화(Ternary Weight Quantization, 예: BitNet b1.58)를 위한 새로운 하드웨어 아키텍처 설계를 제안합니다. 기존 방식의 비효율적인 디양자화 문제를 해결하기 위해 룩업 테이블(LUT) 기반 가속기 설계 공간을 형식화하고 오픈소스 생성기를 제공했습니다. 이 프레임워크는 전체 아키텍처 공간 탐색을 가능하게 하여, 다양한 설계를 체계적으로 비교 평가할 수 있는 공통 기반을 마련하며, 기존 대비 상당한 면적 감소 및 성능 향상을 입증합니다.
클라우드에서 엣지까지: 하드웨어 가속을 갖춘 싱글보드 컴퓨터에서의 LLM 추론 벤치마킹
본 논문은 클라우드 의존성 및 데이터 프라이버시 문제를 해결하기 위해, 하드웨어 가속기를 탑재한 싱글보드 컴퓨터(SBC)에서의 LLM 추론 성능을 다차원적으로 평가하는 새로운 벤치마킹 방법론을 제안합니다. 이 방법론은 NPU와 GPU 같은 다양한 가속기의 활용이 전력 효율성, 물리적 크기, 토큰 처리량 등 여러 요소에 미치는 트레이드오프를 정량화하여 보여줍니다. 이를 통해 무인 차량이나 현장 환경과 같이 연결성이 제한되고 프라이버시가 중요한 곳에 생성형 AI를 실용적으로 배포할 수 있는 지침을 제공합니다.
고속 3D CNN 을 위한 광자원자 공간 - 시간 홀로그래픽 상관기
본 논문은 계산 복잡도가 높은 3D CNN의 한계를 극복하기 위해, 광자원자 공간-시간 홀로그래픽 상관기(STHC)를 활용하는 하이브리드 광전자 구조를 제안합니다. 이 시스템은 냉각 루비듐 원자 배열을 이용해 시간 정보를 저장하고, 이를 전통적인 2D 공간 상관기와 결합하여 공간 및 시간을 동시에 처리합니다. 실험 결과, 대규모 커널에서 높은 분류 정확도와 잠재적으로 매우 빠른 작동 속도를 달성하며, 비디오 분류 가속화에 새로운 방향을 제시했습니다.
강화학습이 전문가 수준의 배치 (Placement) 를 달성할 수 있는 방법은 무엇인가?
본 논문은 강화학습(RL) 기반의 칩 배치 최적화가 전문가 수준의 레이아웃을 달성하는 데 어려움을 겪는 문제를 다룹니다. 기존 RL 방법들이 와이어 길이 같은 단일 목표에만 집중하여 성능 한계를 보인다고 지적하며, 이 문제의 핵심 원인을 보상 설계의 부족에서 찾았습니다. 이를 해결하기 위해, 본 연구는 전문가 레이아웃에서 직접 학습하여 암묵적인 보상을 포착하는 새로운 프레임워크를 제안합니다. 이 방법은 최종 결과물부터 단계별 전문가 궤적을 추론하고, 이를 데모나 선호도로 활용하여 성능과 일반화 능력을 크게 향상시킵니다.
FusionCIM: 퓨전 기반 컴퓨팅-인-메모리 아키텍처를 통한 LLM 추론 가속화
FusionCIM은 대규모 언어 모델(LLM) 추론 가속화를 위해 오퍼레이터 퓨전 기반의 컴퓨팅-인-메모리(CIM) 아키텍처를 제안합니다. 이 아키텍처는 하이브리드 CIM 파이프라인, 데이터 재사용성을 극대화하는 QO-stationary 데이터플로우, 그리고 패턴 인식 온라인-softmax 메커니즘을 통합하여 효율성을 높였습니다. LLaMA-3 모델 테스트 결과, FusionCIM은 기존 SOTA 대비 에너지 절감 및 속도 향상에서 뛰어난 성능을 보여주었습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.