본문으로 건너뛰기

© 2026 Molayo

arXiv중요논문2026. 04. 24. 21:46

노이즈에 강한 양자 회로 최적화를 위한 리플레이 버퍼 엔지니어링

요약

본 논문은 깊은 강화학습 (Deep Reinforcement Learning, RL)을 활용한 양자 회로 최적화의 세 가지 주요 병목 현상을 해결하는 새로운 방법을 제시합니다. 핵심적으로 'ReaPER+'라는 적응형 리플레이 규칙을 도입하여 샘플 효율성을 획기적으로 개선하고, OptCRLQAS를 통해 느린 양자-고전 평가 과정을 가속화했습니다. 또한, 노이즈가 없는 궤적(noiseless trajectories)을 재활용하는 전송 기법으로 학습 단계를 대폭 줄여, 복잡한 분자 모델링 작업에서 높은 에너지 정확도를 달성했음을 보여주며

핵심 포인트

  • ReaPER+라는 적응형 리플레이 규칙은 고정된 PER(Prioritized Experience Replay) 대비 최대 32배의 샘플 효율성을 달성하며, 양자 컴파일 및 QAS 벤치마크에서 더 간결한 회로를 발견했습니다.
  • OptCRLQAS는 여러 아키텍처 편집에 걸쳐 값비싼 양자-고전 평가(quantum-classical evaluation) 비용을 분산 처리하여, 12큐비트 최적화 문제의 에피소드당 시간을 최대 67.5%까지 단축시킵니다.
  • 노이즈가 없는 궤적 재사용 기법은 화학 정확도 도달에 필요한 학습 단계를 기존 대비 최대 85~90% 감소시키고, 최종 에너지 오차를 최대 90%까지 줄였습니다.
  • 이 연구는 경험 저장(experience storage), 샘플링(sampling), 전송(transfer) 메커니즘이 확장 가능하고 노이즈에 강한 양자 회로 최적화의 핵심 동인임을 입증합니다.

양자 회로 최적화를 위한 심층 강화 학습(Deep Reinforcement Learning, RL)은 세 가지 근본적인 병목 현상에 직면합니다. 첫째는 시간차(Temporal-Difference, TD) 목표의 신뢰도를 무시하는 리플레이 버퍼(replay buffers), 둘째는 매 환경 단계마다 전체 양자-고전 평가(quantum-classical evaluation)를 유발하는 커리큘럼 기반 아키텍처 탐색(curriculum-based architecture search), 셋째는 하드웨어 노이즈 하에서 재학습 시 노이즈가 없는 궤적(noiseless trajectories)을 일상적으로 폐기하는 문제입니다. 우리는 리플레이 버퍼를 양자 최적화를 위한 주요 알고리즘 레버로 취급함으로써 이 세 가지 문제를 모두 해결합니다.

우리는 ReaPER$+$, 즉 어닐링된(annealed) 리플레이 규칙을 도입했습니다. 이는 훈련 초반에는 TD 오차 기반 우선순위 지정(TD error-driven prioritization)에서 가치 추정치가 성숙함에 따라 신뢰도 인식 샘플링(reliability-aware sampling)으로 전환되며, 고정 PER, ReaPER 및 균일 리플레이 대비 $4-32$배의 샘플 효율성 향상을 달성했습니다. 또한 양자 컴파일 및 QAS 벤치마크 전반에서 일관되게 더 간결한 회로를 발견합니다. LunarLander-v3에 대한 검증은 이 원리가 도메인 불가지론적(domain-agnostic)임을 확인시켜 줍니다. 나아가, OptCRLQAS를 도입하여 커리큘럼 RL의 양자-고전 평가 병목 현상을 제거했습니다. 이는 값비싼 평가들을 여러 아키텍처 편집에 걸쳐 분산 처리(amortizes)함으로써, 12-큐비트 최적화 문제에서 에피소드당 실시간 시간을 최대 $67.5$% 단축시키면서도 솔루션 품질을 저하시키지 않았습니다. 마지막으로, 네트워크 가중치 전이(network-weight transfer)나 $ ext{E}$-greedy 사전 훈련 없이 노이즈가 없는 궤적을 재사용하여 노이즈 환경 설정 학습을 시작하는 경량의 리플레이 버퍼 전이 방식(lightweight replay-buffer transfer scheme)을 도입했습니다. 이는 6-, 8-, 및 12-큐비트 분자 작업에서 처음부터 시작하는 기준선 대비 화학적 정확도(chemical accuracy)까지 도달하는 단계를 최대 $85-90$% 줄이고 최종 에너지 오차를 최대 $90$% 감소시켰습니다.

종합적으로, 이러한 결과들은 경험 저장(experience storage), 샘플링(sampling), 그리고 전이(transfer)가 확장 가능하고 노이즈에 강한 양자 회로 최적화를 위한 결정적인 레버임을 확립합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
5

댓글

0