Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AR 432건필터 해제
E-ReCON: 기존 CNN 및 SNN 에지 추론을 위한 에너지 및 자원 효율적인 정밀도 설정 가능 희소 nvCIM 매크로
E-ReCON은 에지 AI 추론을 위해 설계된 에너지 및 자원 효율적인 16 Kb 디지털 컴퓨트 인 메모리(DCIM) 매크로입니다. 3T1R ReRAM 비트셀과 새로운 인터리브형 가산기 트리를 통해 CNN과 SNN 워크로드 모두에서 높은 에너지 효율과 낮은 지연 시간을 달성합니다. 특히 프루닝 적용 시에도 높은 정확도를 유지하며, 기존 ADC 기반 설계 대비 성능이 크게 개선되었습니다.
V2X를 통한 수요 기반 공동 인지(Collective Perception)를 가능하게 하는 도로변 인프라의 클라우드 네이티브 운영
본 논문은 자율 주행 시스템(ADS)을 지원하는 지능형 도로변 인프라를 위해 Kubernetes 기반의 클라우드 네이티브 아키텍처를 제안합니다. 수요 기반 오케스트레이션 방식을 통해 V2X 공동 인지 애플리케이션을 차량 존재 시에만 동적으로 배포함으로써, 확장성과 에너지 효율성을 동시에 확보할 수 있음을 입증했습니다.
트랜지스터 기반 양자 컴퓨팅을 향하여
본 연구는 트랜지스터의 양자적 구성을 활용한 새로운 범용 양자 컴퓨팅 아키텍처를 제안합니다. '텔레시스터(telesistors)'라 명명된 이 기술은 대칭 보호 위상 질서를 통해 노이즈를 억제하며, 능동적 오류 수정 없이도 높은 충실도의 클리포드 게이트를 제공하여 낮은 오버헤드의 결함 허용 인코딩을 가능하게 합니다.
폰 노이만 컴퓨팅을 넘어서기 위한 차세대 2D 물질: 전망
폰 노이만 구조의 병목 현상을 해결하기 위해 2D 물질을 활용한 차세대 컴퓨팅 기술의 전망을 다룹니다. 그래핀 트랜지스터, 멤리스터 기반 인메모리 아날로그 컴퓨팅, 그리고 광학 컴퓨팅 소자의 통합이 향후 반도체 기술의 핵심이 될 것으로 전망합니다.
KV-RM: 정적 그래프 LLM 서빙을 위한 KV-Cache 이동 정규화
KV-RM은 정적 그래프 LLM 디코더의 불규칙한 KV-cache 동작 문제를 해결하기 위해 제안된 런타임 설계입니다. 논리적 히스토리와 물리적 저장소를 분리하고 비연속적인 KV 매핑을 병합함으로써, 정적 그래프의 장점을 유지하면서도 메모리 효율성과 레이턴시 안정성을 동시에 확보합니다.
RFAmpDesigner: 자동화된 무선 주파수 (RF) 증폭기 설계를 위한 자기 진화형 멀티 에이전트 LLM 프레임워크
RFAmpDesigner는 무선 주파수(RF) 증폭기 설계를 자동화하기 위해 제안된 자기 진화형 멀티 에이전트 LLM 프레임워크입니다. 고차원 파라미터 튜닝을 저차원 자원 배분 문제로 재구성하고 RAG를 통해 과거 설계 지식을 재사용함으로써, 데이터 부족과 복잡한 수치적 특성 문제를 해결합니다.
확장 가능하고 에너지 효율적인 아날로그 순환 연산을 위한 하드웨어-소프트웨어 공동 설계 (Hardware-Software Co-Design)
본 논문은 초저전력 AI 애플리케이션에 필수적인 아날로그 순환 연산의 한계를 극복하는 하드웨어-소프트웨어 공동 설계 방식을 제시한다. 기존 아날로그 구현이 피드포워드 구조로 제한되어 왔던 문제를, 이산 값 출력과 히스테리시스 역학을 가진 BMRUs를 활용한 전류 모드 아날로그 회로 설계를 통해 해결했다. 그 결과, 노이즈 축적 문제를 획기적으로 개선하고, 소프트웨어 모델이 물리적 하드웨어의 고충실도 시뮬레이터 역할을 수행할 수 있음을 입증하여 엔드 투 엔드 키워드 스포팅에서 서브 마이크로와트 추론을 달성했다.
Arcane: 의미론적 클러스터링 및 MCTS 기반 규칙 탐색을 통한 어설션 감소 프레임워크
Arcane은 하드웨어 설계 검증 시 발생하는 중복된 어설션 문제를 해결하기 위한 새로운 프레임워크입니다. 의미론적 클러스터링과 MCTS(Monte Carlo Tree Search)를 결합하여, 검증 성능을 유지하면서도 어설션의 개수를 최대 76.2%까지 줄여 시뮬레이션 효율을 대폭 향상시킵니다.
표면 진동을 이용한 실시간 제스처 인식을 위한 엔드-투-엔드 (End-To-End) 시스템을 향하여
본 논문은 스마트 홈 환경에서 비침습적인 상호작용을 위해 표면 진동을 활용한 엔드-투-엔드 제스처 인식 시스템을 제안합니다. 압전 센서 기반의 하드웨어부터 데이터 전처리, 그리고 Depthwise separable 1D-CNN 모델에 이르는 전체 파이프라인을 구축하여 사용자 독립적인 높은 인식 정확도를 달성했습니다.
ObfAx: 근사 회로(Approximate Circuits)에서의 난독화 및 IP 복제 탐지
본 연구는 근사 회로(Approximate circuits)의 지적 재산(IP)을 보호하기 위한 새로운 위협 모델인 '근사 난독화(approximate obfuscation)'를 제안하고 이를 탐지하는 프레임워크를 다룹니다. 공격자가 설계 구조를 숨기면서도 원본과 유사한 오류 특성을 유지하도록 만드는 위협에 대응하여, 통계적 오류 프로파일을 비교함으로써 IP 도용을 체계적으로 탐지하는 방법을 제시합니다.
재구성 가능한 컴퓨팅 과제: 거대 과학의 온라인 이벤트 선택을 위한 실시간 그래프 신경망 (Graph Neural Networks)
본 연구는 거대 과학 실험의 실시간 이벤트 선택을 위해 AMD Versal VCK190 플랫폼에서 Graph Neural Networks(GNN)를 효율적으로 배포하는 방법을 제시합니다. FPGA 패브릭과 AI Engine 타일을 동시에 활용하는 반자동 설계 흐름을 통해, 기존 FPGA 전용 솔루션 대비 처리량을 53% 향상시키고 지연 시간을 7.15마이크로초로 최적화했습니다.
보안 하드웨어 설계 및 관련 문제를 위한 LLM: 기회와 도전 과제
LLM을 EDA 및 하드웨어 보안 설계에 통합함으로써 RTL 코드 생성과 테스트벤치 자동화 등 반도체 설계 프로세스의 혁신이 가능해졌습니다. 하지만 데이터 오염, 적대적 머신러닝 회피, 데이터 암기 등 심각한 보안 취약점도 함께 발생하고 있습니다. 본 리뷰는 최신 기술적 돌파구와 함께 이를 해결하기 위한 레드팀 활동 및 동적 벤치마킹 등의 대응책을 심층적으로 분석합니다.
Sieve: 진화하는 Mixture-of-Experts 모델을 위한 동적 전문가 인식 PIM 가속 기술
MoE 모델의 토큰-대-전문가 분포가 양봉형으로 변함에 따라 발생하는 기존 PIM 시스템의 효율성 저하 문제를 해결하기 위한 새로운 기술을 제안합니다. Sieve는 런타임 토큰 분포에 따라 GPU와 PIM 간의 전문가 실행을 동적으로 분할하고, 연산과 통신을 중첩시켜 처리량을 최적화합니다. 실험 결과, 주요 MoE 모델에서 기존 PIM 시스템 대비 최대 1.6배의 처리량 및 상호작용성 향상을 입증했습니다.
TLX: 대규모 프로덕션 환경을 위한 하드웨어 네이티브 및 진화 가능한 MIMW GPU 컴파일러
TLX는 현대 GPU의 복잡한 하드웨어 유닛과 비동기 메커니즘을 효율적으로 제어하기 위해 개발된 MIMW(Multi-Instruction, Multi-Warp) 기반의 GPU 컴파일러 확장입니다. Triton의 생산적인 블록 프로그래밍 모델을 유지하면서도 워프 그룹 단위의 세밀한 조율을 가능하게 하여, 데이터 이동과 텐서 코어 연산 최적화를 지원합니다. 실제 대규모 학습 및 추론 프로덕션 환경에서 성능과 커스터마이징 유연성을 입증하였습니다.
양자-고전 워크플로에서 상태-궤적 피드백 제어로서의 런타임 교정 (Runtime Calibration)
초전도 양자 소자의 게이트 및 판독 충실도가 시간에 따라 변하는 드리프트 문제를 해결하기 위해, 런타임 교정을 상태-궤적 피드백 제어 문제로 공식화한 연구입니다. 고정된 시간 예산 내에서 교정 시점과 복구 동작을 최적화하여 전체 실행 창 동안의 최적화 격차를 최소화하는 것을 목표로 합니다. 실험 결과, 클라우드형보다는 로컬 밀리초 및 타이트 루프 영역의 피드백 제어가 워크로드 품질 개선에 유의미한 이득을 제공함을 확인했습니다.
초저전력 애플리케이션을 위해 설계된 병렬화 가능한 RNN의 성능 및 학습 안정성 향상
초저전력 애플리케이션을 위한 BMRU의 그래디언트 차단 문제를 해결하기 위해 새로운 누적 업데이트 공식을 제안합니다. 제안된 CMRU와 $\alpha$CMRU는 지속적인 메모리를 유지하면서도 그래디언트 흐름을 복구하여 학습 안정성과 성능을 크게 향상시켰습니다. 실험 결과, 이 모델들은 작은 크기에서도 LRUs 및 minGRUs와 대등하거나 더 뛰어난 성능을 보이며 장거리 의존성 학습에 강점을 나타냈습니다.
FPGA 기반 뉴로모픽 엣지 컴퓨팅을 위한 오픈 소스 순환 SNN 가속기를 통합한 이기종 SoC
본 연구는 엣지 디바이스를 위한 저전력·고효율 연산을 목표로 FPGA 기반의 이기종 SoC를 제안합니다. 오픈 소스 순환 SNN 가속기인 ReckOn을 RISC-V 기반 X-HEEP 및 ARM 프로세서와 통합하여, 실리콘 테이프 아웃의 비용 부담 없이 유연하고 비용 효율적인 뉴로모픽 시스템 구현 가능성을 검증했습니다.
캐시 및 TLB 관리를 통한 명령어 프리페칭 (Instruction Prefetching) 강화
현대 서버 워크로드의 방대한 명령어 발자국으로 인한 L1I 캐시 프리페칭의 한계를 극복하기 위한 새로운 마이크로아키텍처 프레임워크 IP-CaT를 제안합니다. IP-CaT는 주소 변환 지연을 줄이는 tPB와 코드 라인의 재사용 특성을 고려한 TIPRP 교체 정책을 통해 성능을 최적화합니다. 실험 결과, 기존의 최첨단 프리페처 및 캐시 교체 정책들보다 우수한 성능 향상을 입증했습니다.
ChipMATE: 강화학습 (RL)을 통한 RTL 생성 성능 향상을 위한 멀티 에이전트 (Multi-Agent) 학습
ChipMATE는 산업 현장의 보안 요구 사항과 검증 프로세스를 반영하여 설계된 최초의 자체 학습 멀티 에이전트 RTL 생성 프레임워크입니다. Verilog 에이전트와 Python 참조 모델 에이전트가 서로를 상호 검증하는 구조를 통해 골든 오라클 없이도 높은 정확도를 확보하며, 2단계 학습 파이프라인을 통해 협업 능력을 극대화했습니다. 실험 결과, VerilogEval V2에서 DeepSeek V4를 능가하는 뛰어난 pass@1 성능을 기록했습니다.
재사용 인지형, 근접 메모리, 올-디지털 Ising 머신에 대한 상세 알고리즘 연구
본 논문은 SRAM 기반의 PIM(Processing-in-Memory) 기술을 활용하여 CPU의 L1 캐시를 재목적으로 활용하는 올-디지털 Ising 아키텍처인 SACHI를 제안합니다. SACHI는 ADC/DAC 회로 없이도 기존 하드웨어 오버헤드를 최소화하며, 기존 방식 대비 높은 신뢰성과 에너지 효율성을 제공합니다. 실험 결과, 자산 배분 및 외판원 문제 등 다양한 응용 분야에서 기존 방식보다 최대 300배의 성능 향상과 80배의 에너지 절감을 달성했습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.