본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 30. 16:06

QYOLO: 양자 영감을 받은 공유 채널 믹싱을 통한 경량 객체 탐지

요약

QYOLO는 양자(quantum) 영감을 받은 공유 채널 믹싱을 활용하여 객체 탐지 모델의 계산 오버헤드를 줄이는 경량화 프레임워크입니다. 기존 YOLO 구조에서 깊은 백본 모듈이 차지하는 파라미터 비중 불균형 문제를 해결하기 위해, QYOLO는 핵심 C2f 병목 모듈들을 컴팩트한 QMixBlock으로 대체했습니다. 이 블록은 공유 학습 가능한 사인(sinusoidal) 믹싱 메커니즘을 통해 전역 채널 재조정을 수행하여 모델의 구조적 압축을 달성하며, 기존 대비 파라미터 및 GFLOPs를 크게 줄이면서도 mAP 성능 저하를 최소화했습니다.

핵심 포인트

  • QYOLO는 객체 탐지 백본 모듈에 양자 영감을 받은 QMixBlock을 도입하여 구조적 압축을 달성합니다.
  • QMixBlock은 공유 학습 가능한 사인 믹싱 메커니즘을 사용하여 전역 채널 재조정을 수행하며, 단계별 파라미터 세트 없이 일관된 채널 중요도를 강제합니다.
  • VisDrone2019 벤치마크에서 QYOLOv8n은 파라미터 수를 20.2%, GFLOPs를 12.3% 감소시키면서 mAP@50 저하가 0.4 pp에 그쳤습니다.
  • 백본 전용으로 설계된 QYOLO는 압축 효율성이 높으며, 지식 증류(knowledge distillation)와 결합하여 정확도 손실을 최소화할 수 있습니다.

객체 탐지 구조의 급속한 발전은 단일 단계 탐지기를 실시간 시각 인식의 지배적인 해결책으로 자리 잡게 했다. 이러한 모델에서 계산 오버헤드의 주요 원인은 깊은 백본 (backbone) 단계를 차지하는데, 여기서 높은 스트라이드 (stride) 레벨에 있는 C2f 병목 모듈들은 채널 너비와 2 차적으로 비례하여 파라미터의 불균형한 비중을 축적한다. 본 연구는 P4/16(512 채널) 과 P5/32(1024 채널) 의 두 개의 가장 깊은 백본 C2f 모듈을 컴팩트한 QMixBlock 으로 대체함으로써 진정한 구조적 압축을 달성하는 양자 영감을 받은 채널 믹싱 프레임워크인 QYOLO 를 소개한다. 제안된 블록은 백본 단계를 가로지르는 공유 학습 가능 파라미터를 가진 사인 (sinusoidal) 믹싱 메커니즘을 통해 전역 채널 재조정 (global channel recalibration) 을 수행하며, 독립적인 단계별 파라미터 세트 없이 일관된 채널 중요도를 강제한다. 넥 (neck) 과 탐지 헤드 (detection head) 는 완전히 고전적이며 변경되지 않았다. VisDrone2019 벤치마크 평가에서 QYOLOv8n 은 파라미터 수를 20.2% 감소시켰으며 (3.01M 에서 2.40M 로), GFLOPs 를 12.3% 감소시켰고 mAP@50 는 오직 0.4 pp 만 저하되었다. QYOLOv8s 는 21.8% 의 감소를 달성하여 0.1 pp 의 저하만 보였다. 지식 증류 (knowledge distillation) 와 결합할 경우, 압축 비용 없이 완전한 정확도 동등성을 회복할 수 있다. 백본과 넥이 모두 포함된 변형은 더 큰 정확도 저하를 대가로 38~41% 의 감소를 달성하여, 최종 설계가 백본 전용으로 결정되게 했다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
5

댓글

0