arXiv논문2026. 06. 08. 12:12

QBugLM: LLM 기반 양자 소프트웨어 디버깅을 위한 에이전트 기반 벤치마킹 프레임워크

요약

양자 소프트웨어의 침묵하는 오류를 탐지하고 수정하기 위한 멀티 에이전트 프레임워크인 QBugLM을 제안합니다. OpenQASM 3.0을 대상으로 버그 주입부터 시뮬레이션 검증까지 자동화된 파이프라인을 구축하여 LLM의 양자 디버깅 능력을 벤치마킹했습니다.

핵심 포인트

QBugLM: 양자 소프트웨어 디버깅을 위한 멀티 에이전트 프레임워크
반복적인 피드백을 통해 Pass@1 성능이 25%에서 80% 이상으로 대폭 향상
추론 능력이 있는 모델은 단순한 구조적 프롬프팅이 CoT보다 효과적일 수 있음
Claude 4.6 Sonnet 및 Qwen3 Coder Next를 활용한 성능 검증 수행

양자 소프트웨어 버그(Quantum software bugs)는 명시적인 오류보다는 침묵하는 잘못된 출력(silent, incorrect outputs)을 생성하는 경우가 많아, 기존 기술로는 탐지 및 수정이 특히 어렵습니다. 대규모 언어 모델(LLMs)이 고전적 소프트웨어 공학(classical software engineering) 작업에서 강력한 성능을 보여주었음에도 불구하고, 양자 코드(quantum code)를 디버깅하는 능력은 여전히 미개척 분야로 남아 있습니다. 이러한 격차를 해소하기 위해, 우리는 프레임워크에 구애받지 않는 OpenQASM 3.0 프로그램을 대상으로 분류 체계 기반의 버그 주입(taxonomy-driven bug injection)부터 LLM 기반 탐지 및 수정(detection and repair), 그리고 최종적인 시뮬레이션 기반 검증(simulation-based validation)에 이르기까지 양자 소프트웨어 디버깅 파이프라인을 자동화하는 멀티 에이전트 프레임워크인 QBugLM을 제안합니다. 나아가 우리는 QBugLM을 사용하여 Claude 4.6 Sonnet 및 Qwen3 Coder Next라는 두 가지 LLM을 대상으로 다양한 프롬프팅 전략(prompting strategies), 버그 카테고리, 양자 프로그램을 아우르는 종합적인 사례 연구를 수행했습니다. 연구 결과, 반복적인 피드백(iterative feedback)이 매우 중요하다는 것을 보여주었으며, 단 한 번의 재시도(single retry)만으로도 Pass@1 수치가 25% 미만에서 80% 이상으로 상승했습니다. 또한, 고정된 자원 제약 조건 하에서 추론 능력을 갖춘 모델의 경우, 더 단순한 구조적 프롬프팅(structured prompting)이 Chain-of-Thought 및 ReAct보다 더 나은 성능을 보일 수 있음을 확인했습니다. 본 연구는 양자 프로그램 디버깅을 위한 LLM 역량을 벤치마킹하는 초기 단계를 밟고 있으며, 향후 자동화된 양자 소프트웨어 수정(automated quantum software repair) 노력을 지원하기 위한 실질적인 통찰을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

QBugLM: LLM 기반 양자 소프트웨어 디버깅을 위한 에이전트 기반 벤치마킹 프레임워크

요약

핵심 포인트

댓글