Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AR 432건필터 해제
μ-ORCA: ACAP 상에서 마이크로초 단위의 심층 신경망 (DNN) 추론 가속 최적화
μ-ORCA는 AMD ACAP 플랫폼에서 마이크로초 단위의 초저지연 DNN 추론을 달성하기 위해 설계된 맞춤형 이기종 가속기 프레임워크입니다. 기존 프레임워크가 해결하지 못한 온칩 통신 비효율성과 계층 간 지연 시간을 해결하기 위해 AIE 어레이 상의 직접적인 계층 간 통신과 512-bit/cycle 캐스케이드 연결을 도입했습니다. 실험 결과, DeepSets 모델에서 0.93μs의 지연 시간을 기록하며 기존 프레임워크 대비 탁월한 성능 향상을 입증했습니다.
오실레이터 기반 Ising Machine을 위한 ROA 기반 부조화 주입 잠금 (Subharmonic Injection Locking)
본 논문은 오실레이터 기반 Ising Machine(OIM)의 성능을 저해하는 온칩 변동 문제를 해결하기 위해 ROA 브릭 기반의 회전 진행파 오실레이터(RTWOs)를 제안합니다. 제안된 ROA-SHIL 방식은 PVT 변동 환경에서도 안정적인 2.31 GHz 신호를 제공하며, 324-노드 max-cut 문제에서 최대 97%의 높은 정확도를 유지합니다. 또한 낮은 에너지 소모량과 확장 용이성을 입증하여 OIM 구현의 한계를 극복할 수 있는 가능성을 보여줍니다.
CPPL: 회로 프롬프트 프로그래밍 언어
LLM을 활용한 하드웨어 설계 시 발생하는 RTL 생성의 어려움을 해결하기 위해 컴파일러 매개 설계 프레임워크인 CPPL을 제안합니다. CPPL은 Python 기반 DSL과 JSON 기반의 회로 IR을 사용하여 LLM이 구조적이고 검증 가능한 설계를 생성할 수 있도록 지원하며, 최종적으로 CIRCT를 통해 합성 가능한 Verilog로 변환합니다.
매개변수화된 하이브리드 무선 통신을 통한 민첩한 Ambient IoT 네트워킹 구현
Ambient IoT의 신속한 프로토콜 프로토타이핑을 지원하기 위해 설계된 최초의 하이브리드 능동-수동 구성 가능 무선 구조인 Janus를 제안합니다. Janus는 단일 RF 프런트 엔드에 수동 및 능동 전송을 통합하고 물리 계층 동작을 매개변수로 추상화하여, 다양한 무선 표준 환경에서 효율적인 테스트를 가능하게 합니다.
iHAC: 성능 및 회복 탄력성 향상을 위한 하이브리드 클러스터 아키텍처
iHAC(Integrated High Availability Cluster)는 기존 고가용성 클러스터의 단일 장애점과 자원 할당 비효율성을 해결하기 위해 설계된 하이브리드 아키텍처입니다. 액티브-액티브와 액티브-패시브 구성의 장점을 결합하여 워크로드 분산과 장애 조치 능력을 최적화합니다. 시뮬레이션 결과, 기존 방식 대비 HTTP 응답 시간을 40% 이상 단축하며 성능과 회복 탄력성을 크게 향상시켰습니다.
NBTI 노화 및 공정 변이 환경에서의 신뢰할 수 있는 산술 곱셈기 구축
본 연구는 AI 가속기의 핵심 요소인 산술 곱셈기에서 발생하는 NBTI(Negative Bias Temperature Instability) 노화 문제를 해결하기 위한 새로운 기술을 제안합니다. 곱셈의 부호 불변성 특성을 활용하여 2의 보수 변환을 선택적으로 적용함으로써 트랜지스터의 스트레스를 재분배하고 하드웨어 수명을 연장합니다. 실험 결과, 면적과 지연 오버헤드를 최소화하면서도 systolic arrays 환경에서 효과적인 노화 완화 성능을 입증하였습니다.
이종 SoIC 패키징 내 광 엔진 열 드리프트(Thermal Drift)를 위한 조기 경보 힌트 레이어로서의 예측적 소프트웨어 스케줄링
반도체 공정이 2nm 노드에 도달함에 따라 TSMC의 COUPE 아키텍처와 같은 공동 패키징 광학(CPO) 통합 과정에서 발생하는 열-광학 결합 문제를 다룹니다. 온도 변화에 민감한 마이크로 링 공진기의 열 드리프트(Thermal Drift) 현상을 방지하기 위해, 예측적 소프트웨어 스케줄링을 조기 경보 힌트 레이어로 활용하는 방안을 제시합니다.
DRAM 내 근접 메모리 프로세싱(Near-Memory Processing)을 통한 데이터 경로에서의 암호화 제거
본 논문은 AES-128 및 SHA-256과 같은 암호화 알고리즘 처리 시 발생하는 메모리 병목 현상을 해결하기 위해 근접 메모리 프로세싱(Near-Memory Processing)의 잠재력을 조사합니다. UPMEM PIM 아키텍처를 활용한 실험 결과, 단일 랭크에서는 CPU보다 성능이 낮지만 계산을 여러 랭크에 분산할 경우 암호화 알고리즘을 효과적으로 가속화할 수 있음을 입증했습니다.
HSCO-Bench: SoC를 위한 에이전트 기반 엔드투엔드 하드웨어-소프트웨어 공동 설계 벤치마크
HSCO-Bench는 LLM 에이전트가 소프트웨어와 하드웨어를 통합적으로 설계할 수 있는 능력을 평가하기 위해 제안된 최초의 엔드투엔드 하드웨어-소프트웨어 공동 설계 벤치마크입니다. 이 벤치마크는 애플리케이션 분석부터 이기종 가속기 설계 및 SoC 통합까지의 전체 프로세스를 다룹니다. 실험 결과, 최첨단 모델들은 하드웨어 가속 능력을 보여주었으나 시스템 자원을 최적으로 활용하는 데에는 여전히 한계가 있음이 드러났습니다.
그래프 신경망 (GNN)을 위한 완전 재구성 가능, 디지털, 확장 가능, 그래프 및 희소성 인식 근접 메모리 가속기에 관한 완전한 논의
본 논문은 그래프 신경망(GNN)의 불규칙한 메모리 액세스 패턴과 데이터 이동 오버헤드 문제를 해결하기 위한 새로운 PIM 아키텍처인 NEM-GNN을 제안합니다. NEM-GNN은 DAC/ADC가 없는 디지털 방식의 확장 가능한 설계를 통해 기존 CPU 및 GPU 기반 실행의 에너지 효율 문제를 극복합니다. 실험 결과, 기존 최첨단 방식 대비 압도적인 성능 향상과 에너지 효율성을 입증하였습니다.
자율 저조도 동작을 위한 하드웨어 기반 다단계 동적 전력 관리 아키텍처
본 논문은 저조도 환경에서 광전 에너지 하베스팅으로 구동되는 IoT 및 임베디드 시스템의 에너지 효율 문제를 해결하기 위한 하드웨어 기반 동적 전력 관리 아키텍처를 제안합니다. 기존 소프트웨어 기반 방식의 정지 전류 소모 문제를 해결하기 위해 마이크로컨트롤러와 주변 장치를 완전히 파워 게이팅하고, 특수 개발된 래치 회로를 통해 452nA의 초저전력 상태를 구현했습니다.
AccelSync: 가속기 파이프라인 프로그램의 동기화 커버리지 검증
본 기술 기사는 AI 가속기 파이프라인 프로그램에서 발생할 수 있는 하드웨어 가시성 데이터 레이스(data races)를 검증하는 새로운 방법론인 AccelSync를 소개합니다. 기존의 시뮬레이션 및 테스트 방식으로는 포착하기 어려운 크로스-유닛 동기화 문제를 해결하기 위해, 제한된 동시 언어와 매개변수화된 하드웨어 이벤트 의미론을 정의했습니다. 이를 통해 프로그램 순서, 동기화 순서, 배리어 순서를 고려하여 '배리어 충분성'이라는 핵심 질문으로 검증 범위를 축소했으며, 실제 LLM 생성 커널에서 높은 결함 탐지율과 낮은 비용 효율성을 입증했습니다.
플라즈마 시뮬레이션을 위한 무어 이후 기술: 커뮤니티 로드맵
플라즈마 시뮬레이션은 고차원 운동학적 진화, 입자-메시 결합 등 복잡한 계산이 필요한 대표적인 과학 워크로드입니다. 범용 프로세서의 스케일링 한계에 직면함에 따라, 본 논문은 플라즈마 시뮬레이션을 위한 세 가지 주요 무어 이후 기술(재구성 가능한 가속기, 비폰 노이만 아키텍처, 양자 컴퓨팅)을 커뮤니티 로드맵 관점에서 평가합니다. 각 기술의 적용 가능성은 입자-셀 워크로드를 중심으로 공동 설계 접근법으로 논의됩니다.
정밀한 End-to-End 시뮬레이션 가속화: 지연 시간에 민감한 Many-core 시스템 모델링
본 논문은 대규모 LLM 워크로드와 Many-core 가속기의 복잡성 증가로 인해 발생하는 RTL 시뮬레이션의 느린 속도 문제를 해결하는 End-to-End 모델링 접근 방식을 제시합니다. 이 방법론은 TeraNoC와 같은 초대형 시스템을 대상으로 하며, 필수적이지 않은 하드웨어 세부 사항을 추상화하면서 지연 시간에 민감한 스크래치패드 메모리(SPM)의 타이밍 동작을 정확하게 포착할 수 있습니다. 그 결과, 기존 사이클 정확도 RTL 모델 대비 최대 115배 빠른 시뮬레이션 속도를 달성하며, 상세한 프로파일링 및 설계 최적화 기회를 제공합니다.
FPGA 및 YOLOv3-Tiny 기반 임베디드 타겟 탐지 시스템 개발
본 기술 기사는 자원 제한적인 임베디드 환경을 위한 고성능 타겟 탐지 시스템을 개발하는 방법을 제시합니다. YOLOv3-Tiny 같은 경량 CNN 모델과 FPGA 하드웨어 가속기를 결합하여, 저비트 양자화 및 배치 정규화 융합 등의 최적화를 통해 계산 효율성과 자원 활용도를 극대화했습니다.
EDA-Schema-V2: 디지털 물리 설계 분야 머신러닝을 위한 다중 모드 스키마, 공개 데이터셋 및 벤치마크
본 논문은 복잡성이 증가하는 디지털 물리 설계 분야에 머신러닝을 적용하기 위한 구조적 프레임워크인 EDA-Schema-V2를 소개합니다. 이 다중 모드 스키마는 로직 합성, 플로어플래닝, 배치 등 다양한 설계 단계의 물리적 속성 및 품질 지표를 포괄적으로 표현할 수 있습니다. 또한, 재현 가능한 연구를 지원하고 표준화된 평가가 가능하도록 관련 데이터셋과 벤치마크도 함께 공개합니다.
CARMEN: 깊은 학습을 위한 자원 효율적인 다중 정밀도 추론 엔진으로 CORDIC 가속화
CARMEN은 자원 효율적인 딥러닝 추론을 위해 설계된 런타임 적응형 다중 정밀도 벡터 엔진입니다. 이 엔진은 CORDIC 알고리즘의 반복 깊이가 계산 정확도를 직접 제어하는 특성을 활용하여, 하드웨어 수정 없이 근사(approximate) 모드와 정확(accurate) 모드 간의 동적 전환을 가능하게 합니다. 이를 통해 전력 및 자원 소모를 최소화하면서도 높은 추론 성능을 달성할 수 있습니다.
TransDot: 트랜스-정밀도 도트-곱 누산(DPA)을 위한 면적 효율적인 재구성 가능한 부동소수점 유닛 (FPU)을 제안합니다
본 기술 기사는 트랜스-정밀도 도트-곱 누산(DPA) 연산을 위해 면적 효율적인 재구성 가능한 부동소수점 유닛(FPU), TransDot을 제안합니다. 기존의 FPU는 DPA를 지원하지 않아 높은 정밀도를 유지하면서 처리량에 병목 현상을 겪었으나, TransDot은 이를 해결하여 입력/출력 대역폭과 컴퓨팅 자원을 모두 활용할 수 있게 합니다. 이 디자인은 AMD Versal 같은 차세대 AI 엔진에 확장 가능한 배포가 가능함을 입증했습니다.
EULER-ADAS: 정밀도 재구성 가능한 근사 ADAS 가속을 위한 에너지 효율적 및 SIMD 통합 로그 포지트 엔진
EULER-ADAS는 첨단 운전자 보조 시스템(ADAS)을 위한 에너지 효율적이고 신뢰성 높은 신경 컴퓨팅 엔진입니다. 이 엔진은 포지트 산술의 장점을 활용하면서도, 기존 포지트 표현의 변동 길이 인코딩 및 데이터 경로 문제를 해결했습니다. 제안된 EULER-ADAS는 경계 레짐 포지트와 SIMD 공유 콰이어 누산 경로를 결합하여 낮은 전력 소비(0.29 W)로 높은 정확도 향상과 실시간 ADAS 추론 성능을 달성했음을 입증합니다.
TREA: 객체 탐지 및 분류를 위한 저정밀도 시간 다중화, 자원 효율적인 엣지 가속기
TREA는 객체 탐지 및 분류를 위해 설계된 자원 효율적인 엣지 AI 가속기입니다. 이 아키텍처는 저정밀도 시간 다중화(time-multiplexed) 방식을 채택하고, MSDF 시프트-앤드-애드 계산과 런타임 비트 절단을 활용하는 DQ-MAC 유닛을 통합했습니다. 이를 통해 기존 승산기 오버헤드를 제거하고 누산기 비트 폭을 줄여, 하드웨어 중복 없이 높은 처리량(최대 4배)과 에너지 효율성을 달성하여 실시간 엣지 비전 워크로드에 최적화되었습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.