© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AR 432건필터 해제

GenAI 기반의 RISC-V 공급망 탐색 접근 방식

본 논문은 RISC-V 반도체 공급망 분석을 위해 LLM과 VLM을 결합한 다중 모달 워크플로우를 제안합니다. 텍스트와 시각적 데이터를 통합하여 지식 그래프를 구축하고, 모델 주도 공학(MDE)을 통해 공급망의 의존성 검증 및 리스크 평가를 수행합니다. 이를 통해 복잡한 반도체 생태계 내에서 회복 탄력성을 체계적으로 평가하고 의사결정을 지원할 수 있음을 입증했습니다.

PoisonCap: CHERI를 위한 효율적인 계층적 시간적 안전성 (Hierarchical Temporal Safety)

PoisonCap은 CHERI 시스템을 위해 설계된 확장 가능한 계층적 시간적 안전성 솔루션으로, 엄격한 Use-after-free(UAF) 보호와 초기화 안전성을 제공합니다. 새로운 'poison' Capability 형식을 도입하여 기존 Cornucopia Reloaded의 한계를 극복하고, 성능 저하 없이 메모리 안전성을 강화합니다.

FPGA 가속 기반 잠금 관리 및 트랜잭션 처리: 아키텍처, 최적화 및 설계 공간 탐색

CPU 기반 OLTP 시스템의 낮은 잠금 서비스 효율성을 해결하기 위해 FPGA를 활용한 하드웨어 가속 잠금 관리 및 트랜잭션 처리 아키텍처를 제안합니다. 제안된 시스템은 DRAM 액세스 오버헤드를 줄이기 위해 잠금 테이블이 통합된 전용 하드웨어 에이전트를 사용하며, TPC-C 벤치마크 결과 CPU 대비 최대 51배의 처리량 향상을 달성했습니다.

NL-to-SVA 생성을 위한 개방형 속성 동등성 검증기를 활용한 보상 가중 온-폴리시 증류 (Reward-Weighted On-Policy

기존의 지도 미세 조정(SFT) 방식이 SVA의 논리적 정확성보다 토큰 모방에 치중하는 문제를 해결하기 위해 RWOPD(Reward-Weighted On-Policy Distillation) 기법을 제안합니다. 이 방법은 SymbiYosys+Z3 검증기를 통해 속성 동등성을 확인하고, 검증을 통과한 샘플에 대해 교사 모델의 지식을 증류하여 모델의 논리적 정확도를 높입니다. 이를 통해 Qwen2.5-Coder-7B-Instruct 기반의 CodeV-SVA-14B 모델은 기존 SOTA 모델 및 대규모 범용 모델을 능가하는 성능을 달성했습니다.

에이전트형 AI는 실제 하드웨어 엔지니어링을 수행할 준비가 되었는가? Phoenix-bench를 통한 심층 분석

본 연구는 소프트웨어 엔지니어링용 에이전트 AI를 하드웨어 엔지니어링 분야로 확장할 수 있는지 검증하기 위해 새로운 벤치마크인 Phoenix-bench를 제안합니다. 실험 결과, 하드웨어의 신호 흐름(Signal Flow) 특성으로 인해 기존 소프트웨어 최적화 에이전트들은 성능이 크게 저하되었으며, 단순한 위치 파악보다 정확한 수정 방향을 제시하는 피드백이 해결률 향상에 더 효과적임을 밝혀냈습니다.

Massive MIMO 실외 위치 측정을 위한 적응형 Transformer 가속기의 효율적인 구현

5G Massive MIMO 환경에서 10ms 미만의 실시간 위치 측정을 위해 설계된 적응형 Transformer 가속기 구현에 관한 연구입니다. 빔-지연 채널의 희소성을 활용한 행 단위 스킵 메커니즘과 혼합 데이터플로우 아키텍처를 통해 에너지 효율과 연산 속도를 동시에 개선했습니다. Xilinx Zynq UltraScale+ FPGA를 통해 검증된 이 시스템은 정확도 저하를 최소화하면서도 높은 처리량과 저지연 성능을 보여줍니다.

동적 비전 센서(DVS)를 위한 멤리스터(Memristor) 기술: 비판적 평가 및 연구 로드맵

Edge-AI의 에너지 병목 현상을 해결하기 위해 이벤트 기반 비전 센서(DVS)와 멤리스터 기반 인메모리 아날로그 컴퓨팅을 결합하는 기술을 분석합니다. 현재 기술 성숙도가 낮은 상태이며, 로보틱스 및 자율 주행 등 다양한 응용 분야에서 실질적인 시스템 통합을 위한 연구 로드맵과 프레임워크가 필요함을 강조합니다.

하드웨어 인지적 Transformer 적응을 위한 계층별 특화 스칼라 함수 진화

Vision Transformers(ViT)를 엣지 디바이스에 배포할 때 발생하는 계층 정규화의 계산 복잡성과 병목 현상을 해결하기 위한 새로운 프레임워크를 제안합니다. 유전 프로그래밍(GP)을 통해 각 계층에 최적화된 이질적인 스칼라 함수를 진화시킴으로써, 모델의 전면적인 재학습 없이도 높은 정확도를 유지하며 하드웨어 효율성을 극대화합니다.

시간 영역 근접 메모리 컴퓨팅 엔진 (Time Domain Near Memory Computing Engine)

AI 워크로드의 에너지 효율을 높이기 위해 데이터 이동을 최소화하는 시간 영역(Time-domain) 근접 메모리 컴퓨팅 아키텍처를 제안합니다. 기존 아날로그 방식의 DAC/ADC 오버헤드 문제를 해결하기 위해 디지털 친화적인 인터페이스를 유지하면서 시간 영역에서 곱셈-누산(MAC) 연산을 수행합니다. 실험 결과, 40 MHz 동작 주파수에서 7.62 TOPS/W의 높은 에너지 효율을 달성하였습니다.

A3D: 자율적인 가속기 설계를 위한 에이전트 기반 AI (Agentic AI) 워크플로우

A3D는 하드웨어 가속기 설계를 자동화하기 위해 에이전트 기반 AI 워크플로우를 제안하는 연구입니다. 워크로드 분석부터 마이크로 아키텍처 생성까지의 전 과정을 자동화하며, 전문 에이전트 간의 협업과 Agentic RAG를 통해 복잡한 과학 애플리케이션의 가속기 설계를 인간의 개입 없이 수행합니다.

캐시 지역성 (Cache Locality) 최적화를 통한 통합 GPU 상의 상태 벡터 (State-Vector) 양자 시뮬레이션 가속화: 교차

본 연구는 소비자용 노트북의 통합 GPU를 활용하여 양자 상태 벡터 시뮬레이션의 성능을 최적화하는 벤더 중립적 접근 방식을 제안합니다. 낮은 공간 지역성으로 인한 메모리 대역폭 병목 현상을 해결하기 위해 마지막 레벨 캐시(LLC) 지역성을 극대화하는 상태 분할(State partitioning) 최적화 기법을 도입했습니다. 실험 결과, Intel 및 Apple Silicon 아키텍처 모두에서 큐비트 규모가 커짐에 따라 발생하는 성능 저하를 완화하고 GPU 가속 성능을 유의미하게 향상시켰습니다.

ITHICA: 결함 유발 침묵 데이터 오염(SDC)을 위한 스레드 내부 명령어 검사 방식

ITHICA는 실리콘 제조 결함으로 발생하는 침묵 데이터 오염(SDC)을 탐지하기 위해 명령어 중복과 출력 비교를 활용하는 새로운 스레드 내부 명령어 검사 방식입니다. 동일한 명령어를 실행하더라도 실행 컨텍스트에 따라 결과가 달라질 수 있다는 점을 이용하여, 임의의 프로그램을 결함 탐지용 기능 테스트로 자동 변환합니다. 3,000대 이상의 CPU 서버 테스트 결과, 기존 방식보다 39% 더 많은 결함 서버를 탐지하는 성능을 입증했습니다.

인증 인지형 속성 지향 도달 가능성 (Certificate-Aware Property-Directed Reachability)

본 논문은 하드웨어 안전성 검증 도구인 PDR(Property-Directed Reachability)의 인증서 크기, 검증 시간, 실행 시간을 동시에 최적화하는 CAPDR 알고리즘을 제안합니다. CAPDR은 학습된 정책을 사용하면서도 모든 상태 변경을 SAT 체크로 보호하여 신뢰성을 유지하며, 2024 Hardware Model Checking Competition 벤치마크에서 기존 방식보다 더 많은 문제를 해결하고 인증서 크기와 검증 시간을 크게 단축했습니다.

ICP: 불규칙한 메모리 액세스 프리페칭을 위한 명령어 상관관계 활용

본 논문은 불규칙한 메모리 액세스 패턴을 효율적으로 처리하기 위해 명령어 수준의 상관관계를 활용하는 새로운 하드웨어 프리페칭 메커니즘인 ICP를 제안합니다. 기존 시계열 프리페처가 주소의 재발에 의존하여 큰 저장 오버헤드를 발생시키는 것과 달리, ICP는 주소를 생성하는 명령어 간의 안정적인 데이터 의존 관계를 학습하여 미래의 액세스를 예측합니다. 실험 결과, ICP는 기존 프리페처 대비 높은 성능 향상을 보이면서도 하드웨어 저장 공간 요구량을 획기적으로 줄였습니다.

AI 하드웨어의 면적 효율성 향상을 위한 SRAM 기반 디지털 맞춤형 연산 엔진

본 논문은 인메모리 컴퓨팅(IMC) 시스템의 라우팅 문제를 해결하기 위해 10T SRAM 셀과 전가산기를 통합한 새로운 디지털 맞춤형 연산 엔진 아키텍처를 제안합니다. 이 설계는 이진 신경망(BNN)의 XNOR 연산에 최적화되어 있으며, 기존 CMOS 설계 대비 면적 효율성을 2.67배 향상시켰습니다.

TTP: 레이 트레이싱 (Ray Tracing)의 정밀한 프리페칭 (Prefetching)을 위한 하드웨어 효율적 설계

레이 트레이싱의 핵심 병목 현상인 BVH 순회 과정에서의 메모리 지연 시간을 해결하기 위해 새로운 하드웨어 프리페처인 TTP를 제안합니다. TTP는 RT 유닛의 기존 트리 순회 스택을 활용하여 매우 높은 정확도로 노드 데이터를 미리 가져옴으로써 메모리 대역폭 문제를 완화합니다. 시뮬레이션 결과, 하드웨어 오버헤드를 최소화하면서도 베이스라인 대비 최대 1.89배의 성능 향상을 달성했습니다.

근접 메모리 아키텍처를 사용하여 희소성, 면적, 에너지, 데이터 이동을 고려한 ILP 가속에 관한 종합적인 연구

본 논문은 정수 선형 계획법(ILP)의 높은 희소성과 분기 집중 문제를 해결하기 위해 근접 메모리 아키텍처 기반의 가속기인 SPARK를 제안합니다. SPARK는 기존 CPU의 L1 캐시를 재목적화하여 최소한의 하드웨어 오버헤드로 희소성 인식 연산과 데이터 이동 최적화를 수행합니다. 실험 결과, 기존 CPU 및 GPU 대비 성능은 최대 20배 향상되었으며 에너지 효율은 대폭 개선되었습니다.

ADS-IMC: 인메모리 컴퓨팅 (In-Memory Computation)을 통한 데이터 정렬 가속화

본 논문은 데이터 이동으로 인한 지연 시간과 에너지 오버헤드를 줄이기 위해 메모리 패브릭 내에서 직접 정렬을 수행하는 새로운 ADS-IMC 아키텍처를 제안합니다. 6T SRAM을 활용한 인메모리 정렬 방식을 통해 오프칩 데이터 전송을 제거하며, 기존 멤리스터 기반 IMC 방식보다 지연 시간을 3.4배 단축했습니다.

아키텍처 전력 트레이스를 통한 워크로드 인지형 초기 단계 전력 공급 네트워크 (PDN) 최적화

본 논문은 멀티프로세서 시스템의 전압 무결성을 유지하기 위해 아키텍처 전력 트레이스를 활용한 워크로드 인지형 PDN 최적화 방법론을 제안합니다. 기존의 정적 또는 최악의 경우를 가정한 설계 방식 대신, 시뮬레이션을 통해 포착한 시간적·공간적 전력 밀도 분포를 기반으로 적응형 자원 할당을 수행합니다. 실험 결과, IR 드롭 및 일렉트로마이그레이션 제약 조건을 유지하면서도 PDN 금속 면적을 최대 32.94% 절감할 수 있음을 확인했습니다.

VeriCache: 손실이 있는 KV Cache를 손실 없는 LLM 추론으로 전환하기

VeriCache는 KV 캐시 압축 시 발생하는 정보 손실 문제를 해결하기 위해, 압축된 캐시로 초안을 작성하고 전체 캐시로 검증하는 새로운 추론 프레임워크입니다. 압축 디코딩과 전체 KV 캐시 스와핑을 병렬화하여 오버헤드를 최소화함으로써, 정확도를 유지하면서도 기존 전체 KV 추론 대비 최대 4배의 처리량 향상을 달성했습니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.