PDAGENT-BENCH: VLSI 물리적 설계를 위한 LLM 에이전트의 특성 분석, 접지(Grounding) 및 아키텍처 설계
요약
VLSI 물리적 설계를 위한 LLM/VLM 에이전트의 능력을 평가하는 새로운 벤치마크인 PDAGENT-BENCH를 소개합니다. 이 벤치마크는 개념적 이해부터 실제 EDA 도구 활용까지 5가지 핵심 차원을 다루며, 현재 모델들의 한계와 인간 협업 워크플로우의 효과를 분석합니다.
핵심 포인트
- VLSI 물리적 설계 평가를 위한 다차원 벤치마크 PDAGENT-BENCH 제안
- 기초 지식, 보고서 이해, 근본 원인 분석 등 5가지 핵심 능력 평가
- 현대 LLM/VLM은 개념적 태스크에는 강하나 도구 실행 및 장기 추론에는 한계
- 인간의 기술이 결합된 에이전트 워크플로우가 설계 성능을 크게 향상시킴
대규모 언어 모델(Large Language Models, LLM)과 시각-언어 모델(vision-language models, VLM)은 초고밀도 집적 회로(Very Large-Scale Integrated Circuits, VLSI)의 프런트엔드 설계에서 놀라운 성공을 보여주었으나, VLSI 물리적 설계(physical design)에 대한 이들의 능력은 여전히 크게 미개척 상태로 남아 있습니다. 주요 원인은 엄격한 설계 제약 조건 하에서의 고차원적, 다단계 최적화, 다양한 전자 설계 자동화(Electronic Design Automation, EDA) 도구와의 조율된 상호작용, 그리고 반복적인 개선을 요구하는 에이전트 기반 물리적 설계 워크플로우를 평가하기 위한 표준화된 벤치마크가 부족하기 때문입니다. 본 연구는 물리적 설계 스택 전반에 걸쳐 LLM/VLM 기반 에이전트를 평가하기 위한 포괄적이고 다차원적인 벤치마크인 PDAGENT-BENCH를 소개합니다. PDAGENT-BENCH는 태스크 수준의 평가와 워크플로우 수준의 실행을 모두 통합합니다. 이 벤치마크 제품군은 개념적 질문과 실제 산업적 산출물을 결합한 353개의 선별된 문제들을 포함하며, 전문가가 검증한 참조 자료와 실행 가능한 솔루션을 제공합니다. 이러한 태스크들은 기초 지식(foundational knowledge), 보고서 이해(report comprehension), 근본 원인 분석(root-cause analysis), 스크립트 생성(script generation), 그리고 전체 흐름 구현(full-flow implementation)이라는 다섯 가지 핵심 능력 차원을 다룹니다. 또한, 이 벤치마크는 실제 EDA 환경에서 전체적인 물리적 설계를 폐쇄 루프(closed-loop)로 평가할 수 있게 하는 통합된, 인간 정렬형(human-aligned) 에이전트 기반 물리적 설계 워크플로우 프레임워크를 제공합니다. 11개의 최첨단 모델을 대상으로 한 실험 결과, 현대의 LLM/VLM이 개념적 태스크에서는 경쟁력 있는 성능을 보이지만, 도구 중심의 실행(예: Innovus 스크립트 생성에서 42.2%) 및 장기적(long-horizon), 다단계 추론 능력에서는 여전히 상당한 한계가 있음을 보여줍니다. 우리의 연구는 또한 인간의 기술이 강화된 에이전트 기반 워크플로우가 엔드 투 엔드(end-to-end) 물리적 설계 성능을 크게 향상시킨다는 것을 보여줍니다. PDAGENT-BENCH는 LLM/VLM 기반의 통합 물리적 설계 자동화를 발전시키기 위한 표준화되고, 재현 가능하며, 현실적인 평가 프레임워크를 구축합니다. 우리는 곧 이 벤치마크와 프레임워크를 오픈 소스로 공개할 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기