NPU 통합 기기에서의 HQC 디코딩 구현 및 최적화
요약
NIST 양자 내성 암호 표준 후보인 HQC의 디코딩 과정을 Qualcomm Hexagon NPU(HVX) 환경에 최적화하여 구현하는 연구를 다룹니다. 벡터화된 연산 재설계를 통해 Snapdragon 8 Gen 2 하드웨어에서 에너지 효율을 최대 18.13배 향상시켰습니다.
핵심 포인트
- HQC 디코딩의 주요 연산을 HVX 친화적 데이터 레이아웃으로 재설계
- Reed-Muller 및 Reed-Solomon 구성 요소의 벡터화 구현
- Snapdragon 8 Gen 2 기반 실제 기기 실험을 통한 성능 검증
- 호스트 CPU 부하 감소 및 에너지 효율 최대 18.13배 개선
Hamming Quasi-Cyclic (HQC)는 격자 기반 (lattice-based) 양자 내성 암호 (post-quantum cryptography)와 함께 알고리즘적 다양성을 제공하기 위해 NIST의 추가적인 코드 기반 키 캡슐화 메커니즘 (key-encapsulation mechanism) 표준화 대상으로 선정되었습니다. 그러나 모바일 및 임베디드 플랫폼에서 HQC를 효율적으로 배포하려면 디코딩 절차에 대한 세심한 최적화가 필요하며, 이 과정에서 Reed-Muller 및 Reed-Solomon 구성 요소가 계산 비용의 대부분을 차지합니다. 본 논문은 텐서 추론 엔진 (tensor-inference engine) 대신 Hexagon Vector eXtensions (HVX) 백엔드에 초점을 맞추어, NPU 통합 기기의 Qualcomm Hexagon 프로세서 상에서 HQC 디코딩을 연구합니다. 우리는 HQC 디코딩이 Reed-Muller 신뢰성 벡터 (reliability vectors), Hadamard 변환 계수 (Hadamard-transform coefficients), Reed-Solomon 신드롬 벡터 (syndrome vectors), 유한체 곱셈 (finite-field products), 그리고 패킹된 서포트 포인트 평가 (packed support-point evaluations)를 포함하여 벡터 구조화된 계산을 자연스럽게 노출한다는 점을 관찰했습니다. 이러한 관찰을 바탕으로, 우리는 벡터화된 Reed-Muller Hadamard 변환, 스칼라와 동등한 피크 선택 (peak selection), HVX 지향적 유한체 산술 (finite-field arithmetic), 벡터화된 신드롬 계산, 그리고 단축된 서포트 로케이터-루트 평가 (shortened-support locator-root evaluation)를 포함하여 HVX 친화적인 데이터 레이아웃 및 실행 패턴을 중심으로 주요 디코딩 커널을 재설계했습니다. 우리는 Hexagon 시뮬레이터 측정값과 Snapdragon 8 Gen 2 하드웨어 개발 키트에서의 실제 기기 실험을 모두 사용하여 최적화된 디코더를 구현하고 평가했습니다. 결과에 따르면 Hexagon/HVX 지원 디코딩은 지연 시간 (latency)과 에너지 소비를 실질적으로 줄여주며, 호스트 CPU의 작업을 크게 분담하는 동시에 에너지 효율을 최대 $18.13 imes$까지 향상시킵니다. 이러한 결과는 하위 커널이 벡터 실행을 중심으로 재구성될 때, NPU 통합 모바일 플랫폼이 구조화된 양자 내성 암호 디코딩을 위한 효과적인 백엔드로 기능할 수 있음을 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기