Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AR 124건필터 해제
HGQ-LUT: DNN 추론을 위한 빠른 LUT-Aware 학습 및 효율적인 아키텍처
HGQ-LUT는 LUT(루크업 테이블) 기반 신경망의 학습 및 하드웨어 구현 문제를 해결하는 새로운 접근법입니다. 이 방법은 최첨단 하드웨어 효율성을 유지하면서도 GPU에서의 학습 속도를 100배 이상 가속화합니다. HGQ-LUT는 규칙적이고 가속기 친화적인 레이어를 도입하고, 자동화된 비트 정밀도 탐색 및 통합 설계 워크플로우를 제공하여 LUT 기반 DNN을 실제 배포 환경에 실용적으로 적용할 수 있게 합니다.
CGRA 컴파일링을 위한 다면체 변환으로 사전 최적화 커널 활용
본 논문은 행렬-행렬 곱셈(mmul)을 핵심 패턴으로 하는 계산 커널을 조립식 재구성 가능 배열(CGRA)에 매핑하는 새로운 컴파일링 방법론을 제시합니다. 이 방법론은 다면체 변환(polyhedral transformations)을 사용하여 소스 코드 내에 숨겨진 mmul 연산을 효과적으로 노출시키고, 이를 전문적인 CGRA 커널 스케줄링으로 최적화된 어셈블리로 대체합니다. 그 결과, 직접 명시되지 않은 부분에서도 리소스 활용도를 극대화하여 실행 시간 성능을 크게 향상시키는 것이 가능함을 입증했습니다.
포커스 세션: 멀티모달 파운데이션 모델 가속화를 위한 하드웨어 및 소프트웨어 기술
본 연구는 멀티모달 파운데이션 모델(MFMs)을 가속화하기 위한 하드웨어 및 소프트웨어 공동 설계 방법론을 제시한다. 이 방법론은 트랜스포머 블록에 대한 양자화, 가지치기 등의 압축 기법과 더불어, 모델 캐스케이드 및 최적화된 데이터플로우를 결합하여 계산 및 메모리 요구사항을 획기적으로 줄인다. 궁극적으로 전용 하드웨어 가속기를 활용하고 다양한 워크로드를 공동 최적화함으로써 MFM의 효율적인 배포와 에너지 효율성을 달성하는 것을 목표로 한다.
SIMD 활용을 통한 대수 연산 가속화
본 기술 기사는 대수 연산 가속화를 위해 DigitsOnTurbo(DoT)라는 새로운 접근 방식을 제안합니다. DoT는 기존 알고리즘을 벡터화하는 대신, 독립적이고 데이터 병렬적인 연산을 중심으로 계산 구조를 재구성하여 SIMD의 이점을 극대화합니다. 그 결과, 덧셈 및 뺄셈에서 최대 1.85배, 곱셈에서 최대 2.3배의 속도 향상을 달성하며, 이는 과학 계산과 암호학 분야 전반에 걸쳐 상당한 성능 개선을 가져옵니다.
GR-Evolve: LLM 기반 알고리즘 진화를 통한 설계 적응형 전역 라우팅
GR-Evolve은 대규모 언어 모델(LLM)을 활용하여 알고리즘 코드를 반복적으로 수정함으로써, ASIC 설계의 복잡성 증가와 기존 EDA 도구의 한계를 극복하는 '설계 적응형 (design-adaptive)' 전역 라우팅 프레임워크입니다. 이 시스템은 QoR 기반 피드백을 받아 LLM이 전역 라우터 소스 코드를 자동으로 진화시키고 최적화합니다. 벤치마크 테스트 결과, GR-Evolve는 기존 라우터 대비 와이어 길이(wirelength)를 최대 8.72%까지 감소시키는 성능 향상을 입증하며, LLM 기반의 설계 적응형 EDA 도구링의 잠재력을 보여줍니다.
AutoINV: 고수준 합성 (HLS) 설계에 대한 형식 검증용 자동 불변식 생성 프레임워크
본 연구는 고수준 합성(HLS)으로 생성된 RTL 설계의 기능적 버그나 보안 취약점을 형식 검증을 통해 확인하는 것을 목표로 합니다. 기존 모델 체킹은 큰 규모의 RTL 때문에 계산 시간이 오래 걸리는 문제가 있었습니다. 이에 본 논문은 HLS 설계의 특성을 활용하여, 가장 효과적인 '보조 명제(helper assertions)' 집합을 자동으로 생성하고 선택하는 프레임워크를 제안함으로써 검증 프로세스를 획기적으로 가속화했습니다.
MPS 및 MIG 기술을 활용한 GPU 공간 공동 실행에 대한 종합 평가
본 기사는 GPU 자원의 과소 활용 문제를 해결하기 위한 NVIDIA의 두 가지 주요 기술인 MPS(Multi-Process Service)와 MIG(Multi-Instance GPU)를 비교 평가합니다. 연구 결과에 따르면, MPS는 유연성을 바탕으로 최적화된 시나리오에서 성능을 향상시키고 에너지 효율을 높일 수 있지만, 메모리 경쟁 상황에서는 심각한 성능 저하를 겪습니다. 반면, MIG는 완전한 하드웨어 격리를 제공하여 일관적인 성능 개선을 보장하지만, 높은 오버헤드와 경직성으로 인해 특정 상황에서 성능 저하가 발생할 수 있습니다.
부하 인식 표면 코드 아키텍처 설계로 나아가기
본 논문은 양자 우위를 실현하기 위한 오류 허용 양자 컴퓨팅(FTQC) 아키텍처의 과도한 오버헤드 문제를 해결하는 새로운 설계를 제안합니다. 이 설계는 보조 큐비트 중심 영역 주변에 표면 코드 패치를 배치하여 모든 데이터 큐비트에 균일한 접근성을 제공하며, 부하 기반 배치 방법을 도입해 최적화된 레이아웃을 결정합니다. 또한, 워크로드별로 측정 지연을 줄이는 재구성 가능한 최적화를 통해 효율성과 동시 실행 능력을 크게 향상시켰습니다.
SPAC: 프로토콜 적응형 커스터마이징을 통한 FPGA 기반 네트워크 스위치 자동화
본 논문은 응용 분야별로 상이한 네트워크 요구 사항(저지연 vs. 고처리량)에 대응하기 위해, 프로토콜과 아키텍처를 공동 최적화하여 맞춤형 FPGA 기반 네트워크 스위치를 자동 생성하는 SPAC(Switch and Protocol Adaptive Customization)라는 새로운 접근법을 제안합니다. SPAC는 DSL, 모듈형 HLS 라이브러리, DSE 엔진으로 구성된 통합 워크플로우를 통해 프로토콜-아키텍처 공동 설계를 자동화하며, 다중 충실도 시뮬레이션을 통해 최적의 설계를 신속하게 식별할 수 있습니다. 실험 결과에 따르면, SPAC가 생성한 맞춤형 스위치는 기존 고정 아키텍처 대비 리소스 사용량을 크게 줄이고 지연 시간을 효과적으로 감소시키는 것으로 나타났습니다.
Versal AI-엔진용 혼합 중요도 애플리케이션 활성화
본 논문은 자율 주행 등 혼합 중요도 시스템(MCSs)에서 AMD Versal SoC의 AI 엔진(AIE)을 활용하는 새로운 방법을 제안합니다. 기존 AIE는 정적 데이터플로우 매핑으로 인해 실시간 작업의 동적 할당이 어려웠으나, 본 연구에서는 런타임에 작업 스위칭이 가능한 '동적 작업 디스패칭 인프라'를 도입했습니다. 이 인프라는 시스템 중요도 모드 변화에 따라 서로 다른 중요도의 작업을 AIE 타일 풀로 유연하게 할당하여, 자율 주행 워크로드에서 높은 활용도와 낮은 오버헤드를 입증하며 AIE의 잠재력을 극대화합니다.
FPGA 기반 레벨별 탐색을 위한 B+ 트리 인덱스 구조의 효율적 배치 검색 알고리즘
본 논문은 FPGA 환경에 최적화된 B+ 트리 기반 인덱스 검색 알고리즘을 제안합니다. 이 접근법은 레벨별 배치 처리를 통해 메모리 액세스를 줄이고 노드 재사용성을 높여, FPGA에서 병렬 검색 키 비교를 효율적으로 수행할 수 있게 합니다. 고수준 합성(HLS) 기법으로 구현된 커널은 실제 하드웨어 가속기에서 CPU 기반 알고리즘 대비 상당한 성능 향상을 입증했습니다.
삼원성 메모리스티브 논리: 도메인 대수를 통한 추론 하드웨어
본 논문은 메모리스티브 크로스바를 활용하여 수치적 가중치를 저장하는 기존 방식과 달리, 각 접합부에 완전한 도메인 범위의 논리 명제(성립/부정/미정의)를 저장하는 새로운 접근 방식을 제시합니다. 연구진은 도메인 대수 구조를 크로스바 토폴로지로 매핑하여 물리적 레이아웃 자체가 복잡한 추론 의미론을 구현하도록 설계했습니다. 이를 통해 하드웨어 레벨에서 논리 연산(도메인 범위, 삼원 논리, 유형 상속 등)이 가능하며, ICD-11 호흡기 질환 분류 칩과 같은 실제 응용 사례를 성공적으로 시뮬레이션하여 그 효용성을 입증했습니다.
광자 양자 컴퓨팅에서 퓨전 연산의 소거 오류 억제
본 논문은 광자 양자 컴퓨팅(PQC) 기반 측정 기반 양자 계산(MBQC)에서 발생하는 두 가지 주요 오류원, 즉 퓨전 실패와 퓨전 소거 문제를 다룹니다. 기존 컴파일러가 주로 퓨전 실패에 초점을 맞춘 반면, 본 연구는 빛 손실로 인한 더 치명적인 '퓨전 소거'를 명시적으로 모델링하는 새로운 접근 방식을 제시합니다. 이를 위해 그래프 상태 생성 중 소거 오류를 억제하는 '트리 인코딩 퓨전(tree-encoded fusion)' 전략을 제안하고, 이를 통합한 컴파일레이션 프레임워크를 개발하여 기존 방법 대비 우수한 견고성과 효율성을 입증했습니다.
AnalogMaster: 이미지에서 레이아웃까지의 대규모 언어 모델을 기반으로 한 자동 아날로그 IC 설계 프레임워크
AnalogMaster는 이미지 기반 회로도에서 네트리스트 생성부터 파라미터 최적화, 배치 및 라우팅까지 아날로그 집적 회로(IC) 설계의 전체 과정을 자동화하는 LLM 기반 프레임워크입니다. 기존 방법론들이 개별 단계에만 초점을 맞추고 수동 개입이 필요했던 한계를 극복하며, 컨텍스트 학습과 의도 추론을 활용하여 정확한 네트리스트 변환을 수행합니다. 이 프레임워크는 자기 강화 프롬프트 엔지니어링 등을 통해 아날로그 IC 설계의 엔드투엔드 자동화에 실용적인 패러다임을 제시하며 높은 성능을 입증했습니다.
VerilogCL: LLM 기반 Verilog 코드 생성을 위한 대조 학습 프레임워크
본 논문은 하드웨어 기술 언어(HDL)인 Verilog 코드를 생성하는 대규모 언어 모델(LLMs)의 신뢰성 문제를 해결하기 위해 'VerilogCL'이라는 통합 프레임워크를 제안합니다. 기존 LLM이 Verilog 코드 생성을 어려워하는 주된 이유는 고품질 학습 데이터 부족과 생성된 코드의 높은 오류율 때문입니다. VerilogCL은 대조 학습(Contrastive Learning)을 활용하여 올바른 RTL(Register-Transfer Level)과 미세하게 변형된 오류 코드를 쌍으로 학습시킵니다. 이를 통해 모델이 정확한 경
그래프 애플리케이션을 위한 분기 예측기 최적화 방안
대규모 그래프 애플리케이션에서 메모리 계층 구조(memory hierarchy)는 주요 병목 지점입니다. 기존 연구들이 캐시 개선에 초점을 맞췄지만, 본 논문은 분기 예측 정확도 향상을 통해 성능을 높일 수 있는 새로운 기회를 제시합니다. 특히 그래프 처리 과정에서 발생하는 빈번한 분기 오예측(branch mispredictions)은 전체 성능의 주요 제한 요인입니다. 따라서 다양한 유형의 브랜치를 포착하는 기존 분기 예측기(BP)를 넘어, 오예측을 유발하는 특정 브랜치에 특화된 최적화가 필요합니다.
LLM 기반 에이전트로 2.5D/3D 칩렛 시스템 최적화하는 방법 (CHICO-Agent)
대규모 언어 모델(LLMs)의 발전으로 인해 단일 실리콘 설계가 한계에 도달하면서, 2.5D 및 3D 칩렛 시스템 채택이 가속화되고 있습니다. 그러나 이로 인해 애플리케이션부터 패키징까지 여러 계층에 걸친 복잡한 공동 설계를 요구하며, 이는 지연 시간(latency), 에너지, 면적, 비용 등 다양한 트레이드오프를 가진 거대한 조합 공간을 만듭니다. 본 논문은 이러한 문제를 해결하기 위해 LLM 기반 최적화 프레임워크인 CHICO-Agent를 제안합니다. CHICO-Agent는 지속적인 지식 기반(knowledge base)을 유지
PPA 기반 3D-IC 파티셔닝 최적화 프레임워크 (DOPP)
기존의 3D-IC netlist 파티셔닝은 근사 지표(proxy objectives)를 사용하여 최적화를 수행하고, 최종 성능 지표(PPA)는 비용이 많이 드는 평가 과정으로 취급되어 이 둘 사이에 간극이 존재했습니다. 본 논문에서 제안하는 DOPP (D-Optimal PPA-driven partitioning selection) 프레임워크는 이러한 근사치와 실제 PPA 측정 사이의 격차를 해소합니다. DOPP는 적은 후보군 평가만으로도 기존 방식과 유사한 최고 수준의 PPA 성능을 달성하며, 8개의 3D-IC 디자인에서 평균적으로
ARM vs x86-64 노트북 프로세서 비교 분석: 아키텍처와 에너지 효율성
본 연구는 Apple M3 (ARM 기반)과 AMD Ryzen 7 3750H (x86-64 기반) 노트북 프로세서를 아키텍처적 관점과 실제 벤치마크를 통해 비교 분석합니다. AArch64의 고정 폭 로드-스토어(load-store) 설계와 x86-64의 가변 길이, 메모리 연산 중심 모델을 대조하며, 레지스터 구성, 호출 규약, 이종 코어 구조 등의 차이가 성능과 에너지 특성에 미치는 영향을 탐구합니다. 실험 결과, Ryzen 플랫폼은 분기(branch)-중심 벤치마크에서 우위를 보였으나, Apple M3는 Fibonacci 및 행
칩렛과 광학 인터커넥트를 결합한 LLM 훈련 최적화 방법론 (ChipLight)
대규모 분산 LLM(Large Language Model) 훈련에서 통신 병목 현상은 핵심 성능 저하 요인입니다. 본 논문은 칩렛(Chiplet) 기술과 광학 인터커넥트(Optical Interconnect, OI)를 결합하여 이 문제를 해결하는 'ChipLight'라는 다층적 최적화 방법론을 제시합니다. ChipLight는 칩렛 아키텍처 설계, 병렬 훈련 전략, 그리고 OI 네트워크 토폴로지를 동시에 공동 최적화(co-optimizing)함으로써, 미래의 대규모 AI 훈련 클러스터 개발에 필요한 효율성과 통찰력을 제공합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.