arXiv논문2026. 05. 27. 12:21

Qiskit QuantumKatas: LLM 평가를 위한 Microsoft 양자 컴퓨팅 연습 문제의 적응

요약

Microsoft의 QuantumKatas를 Qiskit 기반으로 재구성하여 LLM의 양자 컴퓨팅 능력을 평가하는 새로운 벤치마크를 제안합니다. 350개의 태스크를 통해 16개 모델을 분석한 결과, 모델 간 성능 격차와 문제 인코딩의 어려움을 확인했습니다.

핵심 포인트

Qiskit 기반 350개 양자 컴퓨팅 태스크 벤치마크 구축
프런티어 모델과 오픈 소스 모델 간 평균 26.1%p 성능 격차 확인
알고리즘 구현은 우수하나 문제 인코딩 능력은 상대적으로 취약
Chain-of-Thought 프롬프팅의 모델별 양봉적 효과 발견

우리는 잘 정립된 양자 컴퓨팅 커리큘럼인 Microsoft의 QuantumKatas를 Q#에서 가장 널리 채택되는 양자 컴퓨팅 프레임워크인 Qiskit으로 적응시키고, 체계적인 LLM (Large Language Model) 평가를 위한 평가 프레임워크와 함께 패키징하였습니다. 결과물인 벤치마크는 기초 게이트(fundamental gates)부터 고급 알고리즘(Grover's, Simon's, Deutsch-Jozsa), 오류 수정(error correction), 키 분배(key distribution), 그리고 양자 게임(quantum games)에 이르기까지 26개 카테고리에 걸친 350개의 태스크로 구성됩니다. 각 태스크는 자연어 프롬프트(natural language prompt), 표준 솔루션(canonical solution), 그리고 고전 회로 시뮬레이션(classical circuit simulation)을 통한 결정론적 테스트 검증(deterministic test verification)을 포함합니다. 태스크를 처음부터 만드는 대신 QuantumKatas의 검증된 교육적 설계를 기반으로 구축함으로써, 우리는 프레임워크 적응, 평가 인프라 및 실증적 분석을 기여하는 동시에 원칙적인 난이도 점진성(difficulty progression)과 포괄적인 개념 범위를 계승하였습니다. 우리는 이 벤치마크의 유용성을 입증하기 위해 7가지 프롬프팅 구성(prompting configurations)에 걸쳐 16개의 LLM을 평가하였으며, 총 39,200회의 모델 실행을 수행하였습니다. 세 가지 주요 발견 사항이 도출되었습니다: (1) 이 벤치마크는 모델의 능력을 효과적으로 차별화하며, 최적 구성에서의 통과율은 32.3%에서 83.1% 사이로 나타났고, 프런티어(frontier) 모델과 오픈 소스(open-source) 모델 사이에 평균 26.1 pp의 격차가 존재했습니다; (2) 모델들은 알려진 알고리즘을 구현하는 데는 뛰어난 성능을 보였으나(SimonsAlgorithm 82.1%, BasicGates 81.6%), 문제 인코딩(problem encoding)에는 어려움을 겪었습니다(SolveSATWithGrover 34.4%, DistinguishUnitaries 40.0%); (3) 생각의 사슬(chain-of-thought) 프롬프팅은 다소 양봉적(bimodal)인 효과를 보여주었습니다. 이는 세 개의 모델(그 중 두 개는 제조사 문서에 따라 명시적으로 추론 튜닝됨)에게는 최고의 전략이었으나, 나머지 모델들에게는 성능을 저하시켜, 전체 평균(56.3%)에서는 few-shot-5(57.8%)에 뒤처지는 중간 순위를 기록했습니다. 우리는 양자 컴퓨팅 분야에서 LLM 능력에 대한 연구를 지원하기 위해 벤치마크, 평가 프레임워크 및 베이스라인 결과를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Qiskit QuantumKatas: LLM 평가를 위한 Microsoft 양자 컴퓨팅 연습 문제의 적응

요약

핵심 포인트

댓글