Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

täkōFormal: 프로그래머블 메모리 계층 구조를 위한 견고한 소프트웨어 활성화 (확장판)

täkō는 캐시 미스, 반출(eviction), 쓰기 복귀(writeback)와 같은 메모리 이벤트에서 사용자 정의 콜백을 실행하여 데이터 이동 가속화를 제공하는 프로그래머블 메모리 계층 구조입니다. 하지만 이로 인해 시스템의 복잡성이 크게 증가하고 직관적인 제어가 어렵다는 문제가 있습니다. 본 연구는 täkō의 동작 의미를 포착하는 ISA 레벨 메모리 일관성 모델(MCM)을 개발하여, 프로그래머가 täkō 프로그램을 형식적으로 추론할 수 있도록 합니다.

5월 7일5

arXiv논문

현대 GPU 아키텍처 간 마이크로벤치마크 기반 분석 성능 모델링

본 논문은 최신 GPU 아키텍처(NVIDIA Blackwell B200 및 AMD CDNA3 MI300A)의 복잡한 성능 특성을 포착하기 위해 마이크로벤치마크 기반 분석 성능 모델을 개발했습니다. 이 모델은 각 아키텍처의 핵심 요소(예: TMEM, Infinity Cache, 텐서 코어 등)를 반영하여 설계되었으며, 기존의 단순한 이론적 모델(Roofline)보다 훨씬 높은 정확도를 보여주었습니다. 또한, 이 모델은 다른 세대 GPU(H200, MI250X)에도 쉽게 적용 가능함을 입증했습니다.

5월 7일11

arXiv논문

무음 데이터 부패의 해부학: GPU 오류 패턴 연구 및 모델링 가이드

본 기사는 대규모 언어 모델 훈련 환경에서 발생하는 '무음 데이터 부패(SDC)' 문제를 다루며, 이 문제로 인해 GPU 클러스터의 신뢰성이 위협받는 상황을 설명합니다. 연구진은 63개 CUDA 마이크로 벤치마크에 게이트 레벨 결함 주입을 수행하여 SDC 특성을 분석했으며, 그 결과 NaN/무한대 값의 비율이 낮고 단일 비트 플립 이벤트가 전체의 일부만을 차지하며 부패 주소에 주기성이 있다는 통계적 사실을 밝혀냈습니다. 이러한 발견은 분포 기반의 상위 수준 결함 모델링 및 실제 GPU 아키텍처의 회복력 평가를 위한 현실적인 소프트웨어 기반 접근 방식을 제시합니다.

5월 7일10

arXiv논문

RangeGuard: 효율적이고 제한된 근사 오류 수정을 통한 신뢰할 수 있는 DNN

RangeGuard는 DRAM의 밀도 증가로 인한 잦은 비트 플립 및 다비트 오류에 취약한 심층 신경망(DNN) 모델의 안정성을 높이기 위한 메타데이터 중심 오류 수정 프레임워크입니다. 기존 방식과 달리, 원본 비트를 보호하는 대신 각 값의 수치적 범위를 포착하는 '범위 식별자(RIDs)'를 인코딩합니다. 이 RIDs는 메모리 오염으로 인한 해로운 의미적 편차에만 집중하여 오류를 수정하고, 유용한 변동은 무시함으로써 높은 효율성과 신뢰성을 동시에 제공합니다.

5월 7일4

arXiv논문

UVMarvel: LLM 기반 자동화된 서브시스템 레벨 RTL 검증 UVM

UVMarvel은 대규모 IC 개발의 병목 현상인 서브시스템 레벨 RTL 검증을 혁신적으로 개선하는 LLM 기반 자동화 프레임워크입니다. 이 도구는 복잡하고 이질적인 사양(Heterogeneous Specifications)을 분석하여 프로토콜에 맞는 UVM 테스트벤치를 자동으로 구축합니다. 또한, Signal Tracker와 Verilog Patching Library를 활용해 고품질의 스티뮬러스 생성까지 자동화함으로써, 검증 시간을 획기적으로 단축시키고 높은 코드 커버리지를 달성할 수 있게 합니다.

5월 7일9

arXiv논문

Ultra Low-Power SDM-based Circuit-Switching for Networks-on-Chip

본 논문은 예측 가능한 트래픽 패턴을 보이는 AI 칩 및 SoC의 내장 애플리케이션에 최적화된 초저전력 NoC(Network-on-Chip) 설계를 제안한다. 이 설계는 공간 분할 다중화(SDM) 기법을 활용하여 필요한 통신 경로만을 물리적인 회로 스위치로 구현하고, 하드웨어 스위치와 프로그래밍 가능한 크로스바를 결합한 새로운 라우터 아키텍처를 사용한다. 그 결과, 기존 패킷 스위칭 방식 대비 전력 소비를 38% 절감하고 면적 및 지연 시간도 개선하는 성과를 보였다.

5월 7일9

arXiv논문

AxMoE: 근사 곱셈이 혼합 전문가 (Mixture-of-Experts) DNN 아키텍처에 미치는 영향 분석

본 논문은 근사 곱셈(Approximate Computing)이 혼합 전문가(MoE) DNN 아키텍처에 미치는 영향을 분석한 AxMoE를 제시합니다. 연구진은 다양한 CNN 및 Vision Transformer (ViT) 모델과 세 가지 MoE 변형을 대상으로, 여러 종류의 양자화된 근사 곱셈기를 사용하여 성능 저하와 회복률을 평가했습니다. 주요 결과로, 재학습 없이 Dense 구조가 가장 안정적이었으며, ViT-Small의 경우 Hard MoE가 특정 조건에서 높은 효율성을 보였고, 아키텍처 및 토폴로지에 따라 근사 인식 재학습 후 성능 회복 정도가 크게 달라짐을 확인했습니다.

5월 7일8

arXiv논문

모든 오류가 동일하지는 않음: 오픈소스 RISC-V 벡터 클러스터 Spatz 의 전이 오버 민감성 분석

본 연구는 오픈소스 RISC-V 벡터 클러스터 Spatz의 전이 오버 민감성을 SET 및 SEU 오류 모델 하에서 분석했습니다. 10만 회의 오류 주입 실험 결과, 주요 오류 현상은 데이터 부패(FD)로 나타났으며, 특히 TCDM 영역이 데이터 부패의 핵심 원인으로 밝혀졌습니다. 또한, FP8 정밀도가 가장 낮은 출력 영향도를 보였고, 지수부(Exponent)를 표적으로 한 오류가 가장 심각한 데이터 손상 사건을 유발하므로, 특정 경로에 대한 선택적 보호 조치가 필요함을 제안합니다.

5월 7일9

arXiv논문

MCFlash: COTS 3D NAND 칩 내 동적 센싱 및 다중 레벨 인코딩을 활용한 대량 비트 연산

MCFlash는 상용 오프더 선반(COTS) 3D NAND 플래시 칩 자체 내에서 대량의 비트 연산을 직접 수행할 수 있도록 설계된 실용적인 기술입니다. 이 기법은 표준 사용자 모드 명령어를 활용하며, 다중 레벨 셀(MLC) 데이터 인코딩과 동적으로 조정되는 읽기 참조 전압을 결합하여 칩 내부에서 '제자리(in-place)' 비트 연산을 가능하게 합니다. 연구 결과에 따르면, MCFlash는 신선한 블록에서 10억 회 이상의 안정적인 연산 능력을 보여주었으며, 높은 내구성을 유지하며 낮은 비트 오류율을 달성했습니다.

5월 7일5

arXiv논문

RV-IM100: RISC-V 마이크로아키텍처에서의 ISA 확장, datapath 너비 및 파이프라인 깊이 트레이드오프 정량화

본 논문은 RISC-V 아키텍처의 ISA 확장, 데이터패스 너비, 파이프라인 깊이 등 여러 설계 축에 걸친 트레이드오프를 정량적으로 분석한 10개의 점진적인 FPGA 구현 마이크로아키텍처 'RV-IM100'을 제시합니다. 연구 결과는 I-to-IM 확장이 CoreMark와 같은 특정 벤치마크에서 높은 처리량 증가를 가져왔으나, Dhrystone에서는 미미한 감소를 보였습니다. 또한, 파이프라인 깊이를 심화시키는 과정은 최대 주파수를 크게 향상시켰지만, 전력 효율성(per-MHz) 측면에서는 상당한 손실을 초래하는 등 복잡하고 벤치마크 의존적인 트레이드오프를 보여주었습니다. 궁극적으로 RV32가 절대 처리량 면에서 우위를 점할 수 있으며, 리소스 사용량 관점에서 볼 때 너비 확장의 비용이 효율성 증가분보다 클 수 있음을 입증하며 RISC-V 설계 공간 탐색에 중요한 지침을 제공합니다.

5월 6일10

arXiv논문

로또리 BP: 대규모 양자 오류 복호의 잠금 해제

본 논문은 수백만 개의 큐비트에서 오류 내성을 구현하기 위해 확장 가능한 양자 오류 복호(decoding) 방법을 제안합니다. 핵심 방법론인 로또리 BP(Rotary Belief Propagation)는 기존의 복호 알고리즘 대비 높은 정확도와 효율성을 보여줍니다. 또한, 다중 라운드 측정 오류를 처리하는 Syndrome vote 전처리 단계와 PolyQec 구조 설계를 통해 시스템 전체의 성능을 향상시키고, PyTorch 기반의 모듈화된 시뮬레이터 Syndrilla를 개발하여 연구 환경을 개선했습니다.

5월 6일8

arXiv논문

qLDPC 코드를 통한 양자 오류 수정의 고전 리소스 비용 완화

본 기술 기사는 대규모 양자 오류 수정 시스템의 핵심 병목 현상인 디코딩 리소스 경쟁 문제를 해결하기 위한 새로운 접근 방식을 제시합니다. 기존 연구가 표면 코드에 국한되었던 것과 달리, 본 논문은 일반적인 qLDPC 코드를 지원하는 자동화된 프리디코더 생성 프레임워크를 소개하여 디코딩 작업을 효율적으로 분산시킵니다. 또한, 단일 FPGA 및 냉각 ASIC 구현을 통해 대규모 양자 오류 수정 코드(BB 코드 포함)의 동시 디코딩 능력을 크게 향상시키는 하드웨어 아키텍처 설계를 상세히 설명합니다.

5월 6일10

arXiv논문

SPEC CPU2026: 특성 분석, 대표성, 및 교차 소트 비교

본 기사는 최신 AI 가속기 시대에도 여전히 핵심적인 역할을 하는 CPU 성능을 평가하기 위해 SPEC CPU2026 벤치마크의 종합적인 특성 분석 결과를 제시합니다. 연구진은 SPEC CPU2026이 이전 버전 대비 명령어 부피와 메모리 푸트프린트를 증가시키고, 특히 인스트럭션 캐시 스트레스 같은 새로운 병목 현상에 초점을 맞추고 있음을 발견했습니다. 또한, 전체 벤치마크 소트의 대표성을 유지하면서 평가 비용을 크게 줄일 수 있는 클러스터링 기반의 컴팩트한 부분집합(subset)을 식별하고, SPEC CPU2026이 다양한 워크로드 대비 실용적인 아키텍처 연구에 유용한 새로운 기준점을 제공함을 입증합니다.

5월 6일11

arXiv논문

저가형 FPGA 상의 BNN 기반 객체 감지 구현

본 논문은 저가형 FPGA를 활용하여 Binary Neural Network (BNN) 기반의 YOLOv3-tiny 유사 객체 감지기를 구현한 내용을 다룹니다. 이 시스템은 1비트 가중치와 8비트 활성화 함수를 사용하는 컨볼루션 레이어를 특징으로 하며, 모든 하드웨어 로직이 Verilog RTL로 작성되었습니다. VOC 데이터셋에서 39.6%의 mAP50 성능을 달성했으며, 낮은 전력 및 연산량(0.098 GFLOPs)을 보여 저전력 임베디드 환경에서의 객체 감지 가능성을 입증했습니다.

5월 6일14

arXiv논문

LIPPEN: 지점 무결성을 위한 경량 인장 지점 암호화 아키텍처

LIPPEN은 메모리 안전성 위반을 막기 위해 개발된 경량 인장 지점 암호화 아키텍처입니다. 기존의 하드웨어 방어 기법들이 가진 오버헤드나 보안 취약점을 극복하며, 모든 지점을 암호화 블록으로 처리하여 실행 컨텍스트에 암호학적 결합을 합니다. LIPPEN은 64비트 지점 필드를 재사용하고 원본 주소 비트를 보존하지 않는 방식으로 엔트로피를 최대화함으로써 강력한 무결성과 기밀성을 제공하며, 기존 PAC(Pointer Authentication Code) 시스템과도 호환됩니다.

5월 6일7

arXiv논문

NVENC 효율 진화: HQ 및 UHQ 튜닝 효율성, 지연 시간 및 전력의 장기적 분석

본 논문은 NVIDIA NVENC의 세대별 성능을 분석하며, 특히 새로운 'Ultra High Quality' (UHQ) 튜닝 모드를 심층적으로 평가합니다. Blackwell 아키텍처는 표준 모드에서 상당한 비트-속도(BD-Rate) 향상을 제공하지만, UHQ 모드는 높은 품질을 달성하기 위해 복잡성을 CUDA 코어에 오프로딩하고 강력한 시간적 구조를 강제하는 하이브리드 파이프라인으로 작동합니다. 이로 인해 엔드 투 엔드 지연 시간이 400% 이상 증가하고 전력 소비가 크게 늘어나, 실시간 인터랙티브 통신보다는 Video-on-Demand (VoD) 트랜스코딩에 더 적합한 전문 솔루션임을 밝힙니다.

5월 5일9

arXiv논문

MANOJAVAM: 주성분 분석 (PCA) 의 행렬 곱셈 및 특이값 분해 (SVD) 를 위한 확장 가능한 통합 FPGA 가속기

MANOJAVAM은 주성분 분석(PCA)의 핵심 단계인 행렬 곱셈과 특이값 분해(SVD)를 단일 아키텍처에서 통합한 확장 가능한 FPGA 가속기입니다. 이 시스템은 블록 스트리밍을 사용하는 TPU 스타일 사이클릭 배열과 CORDIC 기반 회전 기능을 결합하여 고대역폭 처리를 수행합니다. MANOJAVAM은 NVIDIA A6000 GPU 대비 SVD 지연 시간을 최대 22.75배, 에너지 소비를 42.14배 향상시키는 뛰어난 성능을 보여주며, 고성능 및 엣지 컴퓨팅 환경 모두에 적합한 통합 플랫폼을 제공합니다.

5월 5일7

arXiv논문

AMSnet-q: 아날로그/믹스-신호 회로에 대한 무감독 회로 식별 및 성능 라벨링

AMSnet-q는 아날로그 및 믹스-신호(AMS) 회로 설계의 핵심 병목 현상인 수동 라벨링 과정을 제거하는 새로운 프레임워크입니다. 이 방법은 스키매틱 이미지를 직접 완전하게 검증된 AMS 회로 데이터베이스로 변환하며, 네트리스트 추출부터 토폴로지 인식 테스트벤치 생성 및 시뮬레이션 기반 사이즈링 유효성 검증까지의 전체 과정을 자동화합니다. 이를 통해 인력 의존성을 낮추고 객관적이며 확장 가능한 대규모 AMS 데이터셋 구축을 가능하게 합니다.

5월 5일6

arXiv논문

gem5 시뮬레이션 아키텍처 이해를 위한 gem5 호출 스택 프로파일링

본 논문은 복잡한 컴퓨팅 시스템을 연구하는 데 필수적인 gem5 시뮬레이터의 내부 동작 이해를 위해, gem5 자체의 호출 스택 프로파일링 기법을 제안합니다. 기존 방법론이 간접적이었던 것과 달리, 이 접근 방식은 시뮬레이터가 실행되는 과정 자체를 분석하여 시스템 활동에 대한 직접적인 통찰력을 제공합니다. 연구진은 Linux perf_event 기반의 경량화된 프레임워크를 개발했으며, 이를 통해 CPU 모델 및 메모리 시스템 전반의 런타임 호출 스택을 샘플링하고 계층적 트리로 재구성할 수 있습니다. 이 도구는 기존 통계로는 발견하기 어려웠던 비효율적인 아키텍처 동작(예: TimingSimpleCPU의 캐시 사용 문제)이나 까다로운 동기화 문제(데드락, 리벨록)를 효과적으로 진단하는 데 활용됩니다.

5월 5일6

arXiv논문

PipeRTL: IR 레벨에서의 타이밍 감지 파이프라인 최적화를 위한 RTL 생성

PipeRTL은 하드웨어 컴파일러를 위한 IR 레벨 파이프라인 최적화 프레임워크입니다. 기존 RTL 흐름에서는 파이프라인 최적화가 낮은 수준의 네트리스트 표현으로 내려가면서 원래의 연산자 구조가 손실되어 전역적인 최적화 기회가 제한되었습니다. PipeRTL은 IR 레벨에서 레지스터 재배치의 합법성을 명시하고, 타이밍 예측기를 사용하여 지연 동작을 근사하며, 이를 최소 비용 흐름 문제로 공식화하여 파이프라인 최적화를 컴파일러 패스로 통합합니다.

5월 5일7

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드