arXiv논문2026. 06. 30. 14:05

지식 증류 (Knowledge Distillation)를 통한 시각적 양자 강화학습 (Visual QRL)의 단계적 하이브리드화

요약

본 논문은 시각적 양자 강화학습(Visual QRL)의 학습 난이도를 낮추기 위해 지식 증류(Knowledge Distillation)를 활용하는 단계적 하이브리드화 전략을 제안합니다. 클래식 시각적 교사 모델의 인코더를 고정한 상태에서 양자 회로 기반의 학생 모델로 정책을 증류하여 효율적인 학습 경로를 제시합니다.

핵심 포인트

지식 증류를 통해 고차원 시각 데이터 기반의 양자 강화학습 최적화 문제 해결
클래식 교사 모델의 인코더를 특징 인터페이스로 고정하여 학습 안정성 확보
각도 인코딩 VQC 헤드가 교사 모델에 근접한 높은 성능을 유지함 확인
시각적 QRL을 컴팩트한 헤드 학습 문제로 재정의하여 실질적 학습 경로 제공

시각적 환경은 양자 강화학습 (Quantum Reinforcement Learning, QRL)에 있어 매우 까다로운 설정입니다. 고차원 관측값 (high-dimensional observations), 불안정한 강화학습 (RL) 최적화, 그리고 제약된 변분 양자 회로 (Variational Quantum Circuits, VQCs)를 동시에 학습시키는 것은 어렵습니다. 본 논문은 시각적 QRL을 위한 단계적 하이브리드화 전략으로서 지식 증류 (Knowledge Distillation, KD)를 연구합니다. 픽셀로부터 하이브리드 시각적 에이전트를 엔드투엔드 (end-to-end)로 학습시키는 대신, 먼저 클래식 (classical) 시각적 교사 (teacher)를 학습시키고, 그 인코더 (encoder)를 특징 인터페이스 (feature interface)로 고정한 후, 교사의 정책 (policy) 동작을 컴팩트한 다운스트림 헤드 (downstream heads)로 증류합니다. 이러한 헤드는 클래식 방식이거나 VQC 기반일 수 있으며, 이를 통해 소규모 양자 호환 학생 (students) 모델을 컴팩트한 클래식 제어 장치와 동일한 고정된 표현 (representation) 하에서 평가할 수 있습니다. 우리는 CartPole Pixels 및 Acrobot Pixels 환경에서 이 파이프라인을 평가합니다. 결과에 따르면, 단계적 KD는 직접적인 픽셀 기반 학습이 훨씬 더 어려울 수 있는 설정에서도 얕은 VQC 헤드가 무시할 수 없는 수준의 시각적 제어 동작을 습득할 수 있게 해줍니다. 각도 인코딩 (Angle-encoded) VQC 헤드는 교사에 근접한 성능을 유지하는 반면, 진폭 인코딩 (amplitude-encoded) 헤드는 더 큰 취약성, 강한 예산 민감도, 그리고 더 높은 시뮬레이션 시간을 대가로 컴팩트함을 극한의 영역까지 밀어붙입니다. 종합적으로, 단계적 KD는 시각적 QRL을 컴팩트 헤드 학습 문제로 재정의하며, 표준 엔드투엔드 RL 루프 외부에서 소규모 양자 호환 정책을 학습시키기 위한 실질적인 경로를 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

지식 증류 (Knowledge Distillation)를 통한 시각적 양자 강화학습 (Visual QRL)의 단계적 하이브리드화

요약

핵심 포인트

댓글