Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AR 432건필터 해제
AssertLLM2: 설계 사양으로부터의 Assertion 생성을 위한 종합적인 LLM 벤치마크
하드웨어 설계 사양으로부터 SystemVerilog Assertions(SVAs)를 자동 생성하기 위한 새로운 오픈 소스 벤치마크 AssertLLM2를 소개합니다. 기존 벤치마크의 한계를 극복하여 실제 설계 데이터와 버그가 포함된 RTL을 활용한 엄격한 평가 프레임워크를 제공합니다.
에너지 사각지대: NVIDIA의 플래그십 Edge AI 하드웨어는 프로세스 수준의 에너지 귀속을 지원할 수 없다
에이전트형 AI 워크로드의 높은 에너지 소비 문제를 지적하며, NVIDIA의 최신 Edge AI 하드웨어가 프로세스 단위의 에너지 관측 가능성을 지원하지 않는 문제를 분석합니다. 연구 결과, 현재 플랫폼은 CPU 에너지 정보를 노출하지 않아 정밀한 에너지 귀속이 불가능함을 밝히고 표준화된 요구 사항을 제안합니다.
정밀도가 아닌 범위: Apple Silicon에서의 Block-Floating-Point 반정밀도 FFT 및 SAR 이미징
Apple Silicon에서 FP16을 활용한 고성능 FFT 및 SAR 이미징 구현 방법을 제안합니다. 단순 FP16 사용 시 발생하는 오버플로 문제를 Block-Floating-Point(BFP) 스케줄링으로 해결하여, FP32 수준의 품질을 유지하면서도 처리량을 2.2배 향상시켰습니다.
CXL-ClusterSim: gem5 및 SST를 이용한 풀링 및 공유를 위한 CXL 기반 분리형 메모리 클러스터 모델링
대규모 AI 워크로드의 DRAM 저활용 문제를 해결하기 위해 CXL 기반 분리형 메모리 클러스터를 모델링하는 CXL-ClusterSim 프레임워크를 제안합니다. gem5와 SST를 결합하여 확장성과 유연성을 갖춘 풀 시스템 시뮬레이션 환경을 구축했습니다.
HZO 강유전체 커패시터를 이용한 비휘발성 전하 영역 어텐션: 시뮬레이션 기반 소자-시스템 평가
HZO 강유전체 멤커패시터를 활용하여 비휘발성 전하 영역 어텐션 연산을 수행하는 FCDC 소자를 제안합니다. 시뮬레이션 결과, LLM의 성능 저하를 최소화하면서도 기존 GPU 대비 에너지 효율을 획기적으로 높일 수 있음을 입증했습니다.
FT-Pilot: 취약점 유도 LLM을 통한 자동 결함 허용 (Fault-Tolerant) RTL 재작성
FT-Pilot은 GNN과 LLM을 결합하여 RTL 설계의 소프트 에러 취약성을 자동으로 식별하고 수정하는 프레임워크입니다. RAG 기술을 활용해 결함 허용(Fault-tolerant) 코드를 자동으로 재작성함으로써 설계 초기 단계의 신뢰성 최적화를 지원합니다.
CLIPGen: 2.5D 아키텍처 탐색을 위한 칩렛 링크 IP 모델링 및 생성 프레임워크
2.5D SiP 설계 시 칩렛 링크 IP의 PPA를 추정하고 생성할 수 있는 CLIPGen 프레임워크를 제안합니다. 상위 수준 시뮬레이션부터 RTL 구현에 필요한 표준 부수 자료까지 자동 생성하여 아키텍처 최적화를 지원합니다.
HammerSim: RowHammer 모델링을 위한 시스템 레벨 도구
RowHammer 취약점 분석을 위해 gem5 기반의 전체 시스템 레벨 모델링 프레임워크인 HammerSim을 제안합니다. 확률 기반 비트플립 모델링을 통해 하드웨어 및 소프트웨어 완화 기술을 효과적으로 평가할 수 있습니다.
μ-ORCA: ACAP 상에서 마이크로초(Microsecond) 규모의 심층 신경망 (DNN) 추론 가속 최적화
AMD ACAP 플랫폼에서 마이크로초 단위의 초저지연 DNN 추론을 구현하기 위한 μ-ORCA 프레임워크를 제안합니다. 계층 간 직접 통신과 캐스케이드 연결을 통해 기존 프레임워크의 지연 시간 문제를 해결하고 최적화된 성능을 제공합니다.
Cassandra: 자기 투기적 디코딩 (Self-Speculative Decoding)을 통한 엣지에서의 추론 LLM 구현
Cassandra는 엣지 기기에서의 효율적인 LLM 추론을 위해 알고리즘과 하드웨어를 공동 설계한 자기 투기적 디코딩 프레임워크입니다. 추가 학습 없이도 미세한 데이터 선택과 가중치 최적화를 통해 저배치 시나리오에서 높은 추론 속도를 제공합니다.
분해, 최적화 및 재구성: 대규모 환경에서의 매우 큰 상수 곱셈 (Very Large Constant Multiplication)
자원 제약이 있는 하드웨어를 위한 매우 큰 상수 곱셈(VLCM) 문제를 해결하기 위한 새로운 연구를 소개합니다. 기존의 휴리스틱 방식 대신 선언적 최적화 모델과 제약 프로그래밍을 결합하여 패턴 분해 및 재구성 과정을 최적화했습니다.
SA-Kura: 확산 샘플링(Diffusion Sampling) 내 국소 결합 Kuramoto Drift를 위한 에너지 효율적 시스톨릭 어레이
확산 샘플링의 효율성을 높이는 Kuramoto drift를 가속하기 위한 전용 시스톨릭 어레이인 SA-Kura를 제안합니다. 기존 CNN 가속기가 처리하기 어려운 비선형 스텐실 연산을 최적화하여 지연 시간과 에너지 소모를 획기적으로 줄였습니다.
빠른 긴 문맥 LLM 서빙을 위한 적응형 KV Cache 재사용
긴 문맥 LLM 추론 시 발생하는 TTFT 지연을 해결하기 위해 KV Cache 재사용 시스템인 CacheTune을 제안합니다. 주파수 영역 분석을 통해 핵심 토큰을 식별하고 하드웨어 인식형 최적화를 결합하여 생성 품질 저하 없이 성능을 극대화합니다.
CMAX-CAMEL: 대비 극대화 (Contrast Maximization)를 위한 Coarse-to-Fine 적응형, 메모리 효율적 및
이벤트 기반 모션 추정을 위한 CMAX-CAMEL 프레임워크를 제안합니다. 런타임 적응형 실행 전략과 메모리 중심 아키텍처를 통해 계산 효율성을 높이고 엣지 디바이스에서의 실시간 저전력 처리를 구현했습니다.
Direct-Mapped 멀티코어 아키텍처에서 공유 자원 간섭에 대한 액세스당 상한선
Direct-mapped 멀티코어 아키텍처에서 공유 자원 간섭에 대한 공식적인 경계 분석을 제시합니다. 특정 아키텍처 불변량 하에서 액세스당 스톨의 상한선을 증명하며, 이는 항공 소프트웨어 인증을 위한 WCET 분석에 활용될 수 있습니다.
EVA: 효율적인 벡터 양자화 (Vector Quantization) 아키텍처를 통한 LLM 디코딩 가속화
LLM 디코딩의 메모리 병목 현상을 해결하기 위해 벡터 양자화(VQ)를 활용한 새로운 아키텍처 EVA를 제안합니다. EVA는 입력-코드북 간 직접 내적을 통해 디코딩을 GEMM 연산으로 변환하고 메모리 충돌을 제거하여 성능을 극대화합니다.
MX-SAFE: 실시간 지수 및 가수 비트 할당을 통한 다목적 추론 및 학습용 마이크로스케일링 (Microscaling) 포맷
MX-SAFE는 실시간 지수 및 가수 비트 할당을 통해 학습과 추론 모두를 지원하는 다목적 마이크로스케일링(MX) 포맷입니다. 적응형 모드와 타일 기반 블록 설계를 통해 정확도를 높이고 하드웨어 에너지 효율을 개선했습니다.
에너지 효율적인 근사 Posit 곱셈-나눗셈 유닛
Posit 수 체계를 위한 에너지 효율적인 근사 곱셈-나눗셈 유닛 설계를 제안합니다. LUT와 단일 뺄셈을 활용해 역수를 근사하며, 기존 설계 대비 면적과 전력 지연 곱(PDP)을 획기적으로 개선했습니다.
100MW 이상의 AI 클러스터 구축부터 런타임 최적화까지
AGI 경쟁의 핵심 병목인 AI 데이터 센터의 전력 관리 프로세스를 다룹니다. 150MW 규모의 GB200 GPU 클러스터를 대상으로 초기 계획부터 동적 런타임 최적화까지의 엔드 투 엔드 사례를 제시합니다.
Posture Clip: 올바른 자세로 앉지 않으면 업무를 허용하지 않겠습니다
사용자의 자세가 나쁠 경우 화면을 가려 업무를 제한하는 PostureClip 장치와 그 효과를 연구한 논문입니다. 실험 결과, 실시간 피드백을 제공하는 장치가 구부정한 자세의 지속 시간을 유의미하게 감소시킴을 확인했습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.