arXiv논문2026. 05. 14. 14:30

CO-MAP: 큐비트 할당 문제에 대한 강화학습 (Reinforcement Learning) 접근 방식

요약

본 논문은 양자 컴퓨팅 파이프라인의 핵심 단계인 큐비트 매핑 문제를 해결하기 위한 새로운 접근 방식을 제시합니다. 기존 방식들이 무작위 할당이나 휴리스틱에 의존하여 SWAP 게이트 오버헤드를 최소화하는 데 한계가 있었으나, 본 연구는 이 문제를 조합 최적화(CO) 문제로 정식화하고 강화학습(RL) 정책을 학습하여 해결책을 찾습니다. 그 결과, 기존 양자 컴파일러 대비 SWAP 오버헤드를 65-85%까지 감소시키는 극적인 개선 효과를 입증했습니다.

핵심 포인트

큐비트 매핑은 양자 컴퓨팅 파이프라인에서 중요한 하위 문제이다.
기존의 큐비트 할당 방식은 무작위 또는 휴리스틱 기반으로 SWAP 게이트 오버헤드를 최소화하는 데 한계가 있다.
본 연구는 큐비트 매핑 문제를 조합 최적화(CO)로 정의하고 강화학습(RL) 정책을 학습하여 해결책을 제시한다.
제안된 RL 기반 접근 방식은 기존 기술 대비 SWAP 게이트 오버헤드를 65-85%까지 감소시키는 성능 향상을 보였다.

양자 컴파일러 (Quantum compiler)는 추상적인 양자 회로 (Quantum circuit)를 물리적인 양자 컴퓨터에서 실행할 수 있게 해주기 때문에 양자 컴퓨팅 파이프라인에서 매우 중요한 요소입니다. 양자 컴파일 (Quantum compilation)에서 매우 중요한 하위 문제 중 하나는 논리적 큐비트에서 물리적 큐비트로의 매핑 (Mapping)을 생성하는 것입니다. 일반적으로 양자 컴파일러에서 이 단계는 양자 회로의 추가적인 (SWAP) 게이트 오버헤드를 최소화하는 것을 목표로 하는 무작위 할당 또는 휴리스틱 (Heuristic) 기반 할당으로 구현됩니다. 본 논문에서는 큐비트 매핑 문제를 해결하기 위한 대안적인 접근 방식을 제시합니다. 구체적으로, 우리는 큐비트 매핑 문제를 조합 최적화 (Combinatorial Optimization, CO) 목표로 정식화합니다. 그런 다음 강화학습 (Reinforcement Learning, RL) 정책 (Policy)을 학습함으로써 CO 문제의 해를 찾는 방법을 제시합니다. 또한 오버헤드를 더욱 줄이기 위해 지역 탐색 (Local search) 기반의 후처리 알고리즘을 제안합니다. 우리의 결과는 SWAP 수를 줄이는 데 있어 기존 기술보다 극적인 개선을 보여줍니다. MQTBench 및 Queko 회로와 같은 다양한 실제 데이터셋에서, 우리가 학습시킨 정책은 기존 양자 컴파일러와 비교했을 때 SWAP 오버헤드를 extbf{65-85%} 감소시켰습니다.

AI 자동 생성 콘텐츠

원문 바로가기

CO-MAP: 큐비트 할당 문제에 대한 강화학습 (Reinforcement Learning) 접근 방식

요약

핵심 포인트

댓글