Insights

HighTide: 에이전트가 큐레이션한 오픈 소스 VLSI 벤치마크 스위트

AI 에이전트가 큐레이션한 오픈 소스 VLSI 벤치마크 스위트인 HighTide를 소개합니다. 다양한 설계 언어와 기술 노드를 지원하며, 12가지 에이전트 기술을 통해 설계 수명 주기 전반을 최적화합니다.

StepPRM-RTL: 향상된 RTL 합성을 위한 단계별 프로세스 보상 가이드 기반 LLM 미세 조정

StepPRM-RTL은 RTL 코드 생성의 정확성을 높이기 위해 단계별 프로세스 보상 모델링(PRM)과 RAFT를 결합한 새로운 프레임워크입니다. MCTS를 통해 고품질 추론 궤적을 생성하며, 기존 방식 대비 기능적 정확도와 추론 충실도를 10% 이상 향상시켰습니다.

불확실성을 고려한 신경망 프로세서의 엔드 투 엔드 공동 설계: 학습 및 매핑부터 제조까지

신경망 프로세서 설계 시 네트워크 학습, 칩 매핑, 제조, 자원 할당을 통합하는 엔드 투 엔드 공동 설계 프레임워크를 제안합니다. 단조 공동 설계 이론을 통해 각 설계 블록의 독립성을 유지하면서도 불확실성을 최적화 가능한 자원으로 다룹니다.

GoldenFloat: Lucas-Exact 정수 항등식을 활용한 GF4에서 GF256까지의 Phi 유도 정적 분할 부동 소수점 제품군

GoldenFloat(GF)은 Lucas-Exact 정수 항등식을 활용하여 GF4부터 GF256까지 확장 가능한 정적 분할 부동 소수점 제품군입니다. RTL 생성기, 정수 기반 누산기 경로, 그리고 FPGA 코덱 구현을 통해 하드웨어 지향적 설계를 제시합니다.

아날로그 인메모리 컴퓨팅 (AIMC) 가속기를 위한 이기종 매핑: 통합 워크플로우

아날로그 인메모리 컴퓨팅(AIMC) 가속기의 효율성을 높이기 위한 이기종 매핑 통합 워크플로우를 제안합니다. DNN 워크로드를 아날로그 타일과 디지털 장치에 최적으로 분할하는 4단계 프로세스를 구축하고 GPT-2 모델을 통해 검증했습니다.

도착 즉시 사망: GPU 마이크로아키텍처에서의 Dead-Entry TLB Miss 특성 분석 및 방어 기법

GPU 마이크로아키텍처에서 발생하는 Dead-Entry TLB 미스 현상을 분석하고, 이를 방지하기 위한 DEPOT 메커니즘을 제안합니다. 연구 결과, 특정 워크로드에서 최대 72%의 IPC 개선 효과를 확인했습니다.

AI 리뷰가 논문 작성 과정을 개선할 수 있는가? 20개의 컴퓨터 구조(Computer Architecture) 제출 논문에 대한 실증적 연구

컴퓨터 구조 분야의 논문 20개를 대상으로 AI 리뷰가 논문 작성 과정을 개선할 수 있는지 실증적으로 연구했습니다. AI 리뷰가 인간의 리뷰와 유사한 문제를 지적하면서도 새로운 관점을 제시할 수 있음을 확인했습니다.

AURA: 일정한 VRAM 사용량을 유지하는 로봇 정책을 위한 액션 게이트 메모리 (Action-Gated Memory)

AURA-Mem은 엣지 하드웨어의 제한된 메모리 환경을 위해 설계된 로봇 정책용 메모리 기술입니다. 액션 게이트를 통해 필요한 순간에만 정보를 기록함으로써, 일정한 VRAM 사용량을 유지하면서도 KV-cache 대비 쓰기 횟수를 획기적으로 줄입니다.

CRAM-ER: 확장 가능한 인메모리 연산을 위한 오류 내성 스핀트로닉스 연산용 랜덤 액세스 메모리

MRAM 기반 인메모리 컴퓨팅의 오류와 처리량 문제를 해결하기 위한 CRAM-ER 아키텍처를 제안합니다. 하드웨어-소프트웨어 공동 설계를 통해 스핀트로닉스 소자의 확률적 오류를 완화하고, 기존 CPU/GPU+HBM 구조보다 뛰어난 에너지 효율과 낮은 지연 시간을 달성했습니다.

궤도에서의 Glass Box: 신뢰할 수 있는 자율형 CubeSat 지능을 위한 헌법적 AI (Constitutional AI) 검증 프레임워크

궤도 데이터 센터의 자율 AI 시스템을 위한 런타임 헌법적 AI 검증 프레임워크인 'Glass Box'를 제안합니다. 물리 기반 제약 조건과 선형 시제 논리(LTL)를 활용하여 우주선의 안전한 행동을 보장하고 설명 가능한 감사 로그를 생성합니다.

ARM 기반 HMPSoC에서의 빠른 Transformer 추론

ARM 기반 엣지 디바이스에서 Transformer 모델의 효율적인 추론을 위해 ARM Compute Library(ARM-CL) 내 새로운 커널을 구현했습니다. CPU와 GPU를 협력적으로 활용하는 방식을 통해 기존 방식 대비 최대 3배 빠른 속도와 지연 시간 감소를 달성했습니다.

Multi-Segment Attention: 더 빠른 대규모 언어 모델 (LLM) 서빙을 위한 효율적인 KV-Cache 관리 기술

LLM 추론 시 GPU 어텐션 커널 성능을 고려하여 KV 캐시를 관리하는 AsymCache 시스템을 제안합니다. MSA, 최적화된 캐시 제거 정책, 적응형 스케줄러를 통해 메모리 효율성과 연산 속도를 동시에 개선합니다.

MOSAIC: 적응형 집계 및 추론 병렬성을 통한 효율적인 Mixture-of-Agent 스케줄링

MOSAIC는 Mixture-of-Agents(MoA) 시스템의 GPU 자원 효율성을 극대화하기 위한 새로운 스케줄링 프레임워크입니다. ILP 기반의 최적화와 신뢰도 인식 적응형 집계 기술을 통해 정확도 손실 없이 추론 속도를 대폭 향상시킵니다.

ACRONYM: 동적 벡터 데이터베이스를 위한 메모리 내 가속 근사 최근접 이웃 탐색

ACRONYM은 빈번한 업데이트가 발생하는 벡터 데이터베이스를 위해 알고리즘과 하드웨어를 공동 설계한 플랫폼입니다. 해밍 거리 기반 검색과 CAM 기반 메모리 내 병렬 계산을 통해 인덱스 재구축 없이도 높은 재현율과 압도적인 처리량을 제공합니다.

ZK-Flex: 영지식 증명 (ZKP) 가속을 위한 유연하고 확장 가능한 프레임워크

ZK-Flex는 영지식 증명(ZKP)의 높은 연산 부하를 해결하기 위해 제안된 소프트웨어-하드웨어 공동 설계 프레임워크입니다. Toom-Cook 기반의 TCore와 유연한 NoC를 통해 기존 가속기 대비 뛰어난 속도와 면적 효율성을 달성했습니다.

Regular-Dead on Arrival: GPU 마이크로아키텍처에서의 Dead-Entry TLB Miss 특성 분석 및 방어 기법

GPU 워크로드에서 발생하는 Dead-entry L2 TLB 미스 현상을 분석하고, 이를 방어하기 위한 DEPOT 메커니즘을 제안합니다. 연구 결과, 특정 워크로드에서 IPC를 최대 72% 향상시키는 효과를 확인했습니다.

SPARQLe: 양자화된 LLM 추론을 위한 하위 정밀도 활성화 표현 (Sub-Precision Activation Representation)

SPARQLe는 LLM 추론 시 활성화 값의 통계적 특성을 활용하여 메모리 트래픽과 연산 비용을 줄이는 하드웨어-소프트웨어 공동 설계 프레임워크입니다. 활성화를 LSB 텐서와 희소한 MSB 텐서로 분리하여 압축함으로써 정확도를 유지하면서도 추론 지연 시간과 에너지 소비를 크게 개선합니다.

정규 활성화 집중도: 확산 모델 아키텍처 전반에 걸친 컬럼 수준 출력 희소성 특성 분석

확산 모델의 활성화 희소성이 하드웨어의 컬럼 단위 처리 방식과 충돌하는 문제를 분석한 연구입니다. 요소 수준의 희소성이 실제 하드웨어 효율성을 과장할 수 있음을 밝히고, 워크로드별 컬럼 수준 희소성 특성을 체계적으로 제시합니다.

하드웨어 연결성 제약이 있는 양자 장치에서의 선형 복잡도 페르미온 시뮬레이션

하드웨어 연결성 제약이 있는 양자 장치에서 페르미온 시스템을 효율적으로 시뮬레이션하기 위한 Accordion 프레임워크를 제안합니다. 이 방식은 매핑, 합성, 라우팅을 공동 설계하여 게이트 수와 회로 깊이를 획기적으로 줄입니다.

OpenEye: DNN을 위한 확장 가능한 오픈 소스 하드웨어 가속기

OpenEye는 DNN 추론을 위해 설계된 FPGA 기반의 확장 가능한 오픈 소스 하드웨어 가속기입니다. 희소성 인식(sparsity-aware) 기능을 통해 불필요한 계산을 줄이며, 클러스터와 PE 수를 조절하여 다양한 자원 제약에 대응할 수 있는 고도의 파라미터화된 아키텍처를 제공합니다.