본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AR 432필터 해제

arXiv논문

Long-Context LLM 서빙 가속화를 위한 통합 KV 풀링 (Unified KV Pooling)

Long-context LLM 서빙 시 발생하는 KV 캐시 오프로딩의 비효율성을 해결하기 위한 통합 KV 풀링 기술을 제안합니다. 여러 메모리와 SSD를 하나의 논리적 풀로 통합하고 커널 파일 시스템을 우회하여 TTFT를 획기적으로 단축했습니다.

3일 전0
arXiv논문

512MB 미만의 RAM을 가진 임베디드 장치에서 하드웨어 인식 신경망 구조 탐색(HW NAS) 실행하기

512MB 미만의 저사양 임베디드 장치를 위한 하드웨어 인식 신경망 구조 탐색(HW NAS) 기술을 제안합니다. IoT 및 웨어러블 기기용 초소형 CNN을 생성하여 프라이버시를 보호하면서도 최첨단 성능을 달성합니다.

3일 전0
arXiv논문

KATANA: 실시간 추적을 위한 에지 NPU 상의 칼만 필터(Kalman Filters)에 대한 고속·저전력 매핑

KATANA는 상용 NPU를 활용하여 칼만 필터(LKF, EKF)를 고속·저전력으로 실행하는 매핑 기술을 제안합니다. 대수적 그래프 재작성을 통해 연산의 100%를 NPU 행렬 엔진에서 처리함으로써 CPU 대비 에너지 효율을 극대화합니다.

3일 전0
arXiv논문

ESBMC-PLC: SMT 기반 모델 체킹을 이용한 IEC 61131-3 래더 다이어그램 프로그램의 형식 검증

IEC 61131-3 래더 다이어그램(LD)을 지원하는 최초의 오픈 소스 형식 검증기인 ESBMC-PLC를 제안합니다. SMT 기반 모델 체킹을 통해 PLC 프로그램의 안전 속성을 검증하며, 기존 도구와 차별화된 네이티브 LD 지원 및 k-유도 기능을 제공합니다.

3일 전0
arXiv논문

동시 다중 행 활성화(SiMRA)를 이용한 In-DRAM 시그니처 생성: 상용 DRAM 칩에 대한 실험적 연구

SiMRA(동시 다중 행 활성화)를 활용하여 상용 DRAM 칩에서 고유한 시그니처를 생성하는 SiMRA-PUF 기술을 제안합니다. 실험을 통해 DDR4 DRAM에서 높은 반복 가능성과 장치 간 고유성을 입증하였으며, 기존 기술 대비 낮은 지연 시간을 확인했습니다.

3일 전0
arXiv논문

효율적인 MoE 기반 LLM 추론을 위한 시공간적 전문가 프리페칭 프레임워크

MoE 기반 LLM의 추론 시 발생하는 전문가 로딩 오버헤드를 해결하기 위한 ST-MoE 프레임워크를 제안합니다. 전문가 활성화 패턴의 시공간적 상관관계를 분석하여, 예측 메커니즘과 하드웨어 설계를 통해 전문가를 선제적으로 로딩함으로써 추론 성능과 에너지 효율을 높입니다.

3일 전0
arXiv논문

무손실 LLM 가중치 압축을 통한 Shannon Bound 접근

LLM 가중치의 낮은 내재적 무작위성을 활용하여 가중치 값의 손실 없이 저장 공간을 획기적으로 줄이는 무손실 압축 연구를 소개합니다. ANS 기반의 실시간 압축 해제 프레임워크를 통해 GPU 추론 성능과 처리량을 크게 개선했습니다.

3일 전0
arXiv논문

LLM4RTL: RTL 생성을 위한 도구 지원 LLM

LLM4RTL은 RTL(Register Transfer Level) 코드 생성을 위해 고품질 학습 데이터를 정제하는 JRCRC 파이프라인과 도구 지원 아키텍처를 제안합니다. 이를 통해 작은 모델로도 GPT-4o에 필적하는 VerilogEval 성능을 달성했습니다.

3일 전0
arXiv논문

PANDA: 설계 의도와 레이아웃 생성을 연결하는 LLM 강화 성능 중심 아날로그 설계 프레임워크

PANDA는 설계 의도와 레이아웃 생성을 연결하는 LLM 강화 아날로그 설계 프레임워크입니다. 토폴로지 합성, 사이징, 레이아웃 생성을 통합 관리하여 설계 성능을 높이고 작업 시간을 획기적으로 단축합니다.

3일 전0
arXiv논문

HierSVA: LLM 기반 계층적 하드웨어 형식 검증을 위한 데이터 합성 파이프라인, 데이터셋 및 벤치마크

LLM을 활용하여 계층적 하드웨어 형식 검증을 수행하는 통합 스위트 HierSVA를 제안합니다. RTL 전처리와 LLM을 결합해 SystemVerilog Assertions를 생성하며, 데이터셋과 벤치마크를 통해 LLM의 검증 성능을 다각도로 분석합니다.

4일 전0
arXiv논문

Tiara: 원격 메모리 액세스를 위한 프로그래밍 가능한 라인 레이트(Line-Rate) ISA

Tiara는 원격 메모리 액세스 시 발생하는 간접 참조 장벽(Indirection Wall) 문제를 해결하기 위해 제안된 프로그래밍 가능한 라인 레이트 ISA입니다. 메모리 측 NIC에서 실행되는 명령어를 통해 다중 RTT 의존성을 단일 라운드 트립으로 압축하여 성능을 극대화합니다.

4일 전0
arXiv논문

현대적인 대규모 메모리 특성 분석 연구소

현대 DRAM의 동작 특성을 분석하여 성능, 보안, 에너지 효율을 향상시키기 위한 대규모 연구 인프라 'DRAM Bender'를 소개합니다. 새로운 실험 유형 지원과 인터페이스 표준 확장, 대규모 환경 최적화 업데이트를 포함합니다.

4일 전0
arXiv논문

BigPower: 대규모 언어 모델을 이용한 CPU의 계층적 소스 레벨 모듈 전력 추정

LLM 기반의 계층적 소스 레벨 대리 모델인 BigPower를 제안합니다. CPU 설계 단계에서 시뮬레이션 없이 소스 레벨 정보만으로 미세 모듈 단위의 전력 소비를 정확하게 추정할 수 있습니다.

4일 전0
arXiv논문

Ramulator 2.1: 현대적 DRAM 시스템을 위한 구성 가능한 메모리 시스템 시뮬레이터

Ramulator 2.1은 현대적인 DRAM 표준과 메모리 컨트롤러 기능을 지원하는 구성 가능한 메모리 시스템 시뮬레이터입니다. Python 기반 인터페이스를 도입하여 사용성과 확장성을 높였으며, HBM3/4 및 LPDDR5/6 등 최신 규격을 지원합니다.

4일 전0
arXiv논문

확장 초록: Ramulator 2.0의 실제 시스템 모델링 정확도 재평가

Ramulator 2.0 DRAM 시뮬레이터의 정확도에 대한 기존 연구(Mess 논문)의 오류를 입증하고, 올바른 시뮬레이션 설정 및 사용 모범 사례를 제안합니다. 시뮬레이션 도구 사용 시 발생할 수 있는 오류를 방지하기 위한 가이드라인과 재현 가능한 연구 환경을 제공합니다.

4일 전0
arXiv논문

RTL 트레이스(Trace)로부터의 정보 흐름 경로

하드웨어 설계 보안 검증을 자동화하기 위해 RTL 트레이스 데이터로부터 정보 흐름 경로를 구축하는 새로운 접근 방식을 제안합니다. 기존 연구가 레지스터 간 정보 흐름 탐지에 국한되었던 한계를 넘어, 민감한 정보의 전체 전파 경로를 재현하는 데 집중합니다.

4일 전0
arXiv논문

SPEAR: 효율적인 저비트 LLM 서빙을 가능하게 하는 양자화 후 오차 적응형 복구 시스템

SPEAR는 저비트 LLM 서빙 시 발생하는 양자화 오차를 줄이기 위한 적응형 복구 시스템입니다. 토큰별 게이트와 경량 오차 보상기를 활용해 모델 성능 저하를 최소화하면서도 효율적인 서빙을 가능하게 합니다.

4일 전0
arXiv논문

반도체 제조를 위한 물리 정보 기반 생성형 AI: 생성 모델 구축 시 엄격한 물리적 제약 조건 강제하기

반도체 제조 공정에서 물리적 제약 조건을 준수하는 생성형 AI 구축의 중요성을 다룬 논문입니다. 사후 필터링 대신 모델 구축 단계부터 물리 법칙을 통합하는 아키텍처와 통합 패턴을 제안합니다.

4일 전0
arXiv논문

TileFuse: AMD NPU에서의 효율적인 양자화된 LLM 추론을 위한 융합 혼합 정밀도 커널 라이브러리

AMD XDNA2 NPU에서 AWQ와 같은 양자화된 LLM을 효율적으로 추론하기 위한 커널 라이브러리 TileFuse를 제안합니다. 혼합 정밀도 커널과 데이터플로우 설계를 통해 성능과 에너지 효율을 획기적으로 개선했습니다.

4일 전0
arXiv논문

멀티 칩렛(Multi-chiplet) GPU의 GEMM 설계 공간 탐색을 위한 빠른 로컬리티 시뮬레이터

멀티 칩렛 GPU 환경에서 LLM의 GEMM 연산 시 발생하는 칩렛 간 트래픽을 최소화하기 위한 타일 수준의 로컬리티 시뮬레이터를 제안합니다. 시뮬레이션 결과, CTA 순회 순서와 데이터 배치가 원격 트래픽에 결정적인 영향을 미침을 확인했습니다.

4일 전0

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.