arXiv논문2026. 04. 29. 19:15

강화학습이 전문가 수준의 배치 (Placement) 를 달성할 수 있는 방법은 무엇인가?

요약

본 논문은 강화학습(RL) 기반의 칩 배치 최적화가 전문가 수준의 레이아웃을 달성하는 데 어려움을 겪는 문제를 다룹니다. 기존 RL 방법들이 와이어 길이 같은 단일 목표에만 집중하여 성능 한계를 보인다고 지적하며, 이 문제의 핵심 원인을 보상 설계의 부족에서 찾았습니다. 이를 해결하기 위해, 본 연구는 전문가 레이아웃에서 직접 학습하여 암묵적인 보상을 포착하는 새로운 프레임워크를 제안합니다. 이 방법은 최종 결과물부터 단계별 전문가 궤적을 추론하고, 이를 데모나 선호도로 활용하여 성능과 일반화 능력을 크게 향상시킵니다.

핵심 포인트

칩 배치(Chip placement)는 물리적 설계의 핵심 단계이며, 최적화가 필수적이다.
기존 RL 기반 칩 배치 방법들은 와이어 길이 등 단일 목표에만 초점을 맞춰 전문가 수준의 성능을 달성하는 데 한계가 있다.
본 연구는 보상 설계의 부족이 성능 격차의 주요 원인임을 규명하고, 이를 해결하기 위한 새로운 접근법을 제시한다.
제안된 프레임워크는 최종 전문가 레이아웃에서 단계별 궤적(trajectories)을 추론하여, 암묵적인 전문 지식을 포착하는 보상 모델을 학습한다.
실험 결과, 이 방법은 단일 설계에서도 효율적으로 학습하며, 미지의 사례에도 뛰어난 일반화 능력을 보여준다.

칩 배치 (Chip placement) 는 물리적 설계의 핵심 단계입니다. 최근 등장한 강화학습 (RL) 기반 방법들은 주로 와이어 길이 (wirelength) 최적화에 초점을 맞추고 있어, 결과적으로 전문가 수준의 레이아웃을 달성하는 데 자주 실패합니다. 우리는 이 성능 격차의 주요 원인이 보상 설계 (reward design) 에 있음을 규명했습니다. 복잡한 과정을 형식화하는 대신, 우리는 전문가 레이아웃에서 직접 학습하여 보상 모델을 유도함으로써 이를 우회합니다. 우리의 접근법은 최종 전문가 레이아웃에서부터 단계별 전문가 궤적 (trajectories) 을 추론하는 것으로 시작합니다. 이러한 궤적을 데모나 선호도로 사용하여, 전문가 결과에 내재된 잠재적 암묵적 보상을 포착하는 모델을 훈련합니다. 실험 결과, 우리의 프레임워크는 단일 설계에서도 효율적으로 학습할 수 있으며, 보이지 않는 사례에도 잘 일반화 (generalize) 됨을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

강화학습이 전문가 수준의 배치 (Placement) 를 달성할 수 있는 방법은 무엇인가?

요약

핵심 포인트

댓글