노이즈에 강한 양자 회로 최적화를 위한 리플레이 버퍼 설계
요약
본 논문은 깊은 강화학습 (Deep Reinforcement Learning, RL)을 활용한 양자 회로 최적화의 세 가지 주요 병목 현상을 해결하는 새로운 방법을 제시합니다. 핵심적으로 'ReaPER+'라는 적응형 리플레이 규칙을 도입하여 샘플 효율성을 획기적으로 개선하고, OptCRLQAS를 통해 느린 양자-고전 평가 과정을 가속화했습니다. 또한, 노이즈가 없는 궤적(noiseless trajectories)을 재활용하는 전송 기법으로 학습 단계를 대폭 줄여, 복잡한 분자 모델링 작업에서 높은 에너지 정확도를 달성했음을 보여주며
핵심 포인트
- ReaPER+라는 적응형 리플레이 규칙은 고정된 PER(Prioritized Experience Replay) 대비 최대 32배의 샘플 효율성을 달성하며, 양자 컴파일 및 QAS 벤치마크에서 더 간결한 회로를 발견했습니다.
- OptCRLQAS는 여러 아키텍처 편집에 걸쳐 값비싼 양자-고전 평가(quantum-classical evaluation) 비용을 분산 처리하여, 12큐비트 최적화 문제의 에피소드당 시간을 최대 67.5%까지 단축시킵니다.
- 노이즈가 없는 궤적 재사용 기법은 화학 정확도 도달에 필요한 학습 단계를 기존 대비 최대 85~90% 감소시키고, 최종 에너지 오차를 최대 90%까지 줄였습니다.
- 이 연구는 경험 저장(experience storage), 샘플링(sampling), 전송(transfer) 메커니즘이 확장 가능하고 노이즈에 강한 양자 회로 최적화의 핵심 동인임을 입증합니다.
Deep reinforcement learning (RL) for quantum circuit optimization faces three fundamental bottlenecks: replay buffers that ignore the reliability of temporal-difference (TD) targets, curriculum-based architecture search that triggers a full quantum-classical evaluation at every environment step, and the routine discard of noiseless trajectories when retraining under hardware noise. We address all three by treating the replay buffer as a primary algorithmic lever for quantum optimization.
We introduce ReaPER$+$, an annealed replay rule that transitions from TD error-driven prioritization early in training to reliability-aware sampling as value estimates mature, achieving $4-32 imes$ gains in sample efficiency over fixed PER, ReaPER, and uniform replay while consistently discovering more compact circuits across quantum compilation and QAS benchmarks; validation on LunarLander-v3 confirms the principle is domain-agnostic. Furthermore we eliminate the quantum-classical evaluation bottleneck in curriculum RL by introducing OptCRLQAS which amortizes expensive evaluations over multiple architectural edits, cutting wall-clock time per episode by up to $67.5$% on a 12-qubit optimization problem without degrading solution quality. Finally we introduce a lightweight replay-buffer transfer scheme that warm-starts noisy-setting learning by reusing noiseless trajectories, without network-weight transfer or $\varepsilon$-greedy pretraining. This reduces steps to chemical accuracy by up to $85-90$% and final energy error by up to $90$% over from-scratch baselines on 6-, 8-, and 12-qubit molecular tasks.
Together, these results establish that experience storage, sampling, and transfer are decisive levers for scalable, noise-robust quantum circuit optimization.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기