HE^2: 효율적인 완전 동형 암호 (FHE)를 위한 통신 경량 이기종 아키텍처
요약
CKKS 완전 동형 암호(FHE)의 연산 효율을 높이기 위해 ASIC과 NMP의 장점을 결합한 이기종 xPU-xMU 아키텍처인 $HE^2$를 제안합니다. DFG 최적화와 그룹 수준 파이프라인을 통해 이기종 간 통신 병목을 해결하여 성능과 에너지 효율을 대폭 개선했습니다.
핵심 포인트
- CKKS 암호화 연산의 연산 및 메모리 집약적 특성 해결
- DFG 최적화를 통한 키 스위치 연산 및 통신 빈도 감소
- 그룹 수준 파이프라인 설계를 통한 통신 지연 은닉
- 기존 가속기 대비 1.66배 속도 향상 및 9.23배 낮은 EDAP 달성
신흥 완전 동형 암호 (Fully Homomorphic Encryption, FHE) 스킴인 CKKS는 암호문 상에서 SIMD 고정 소수점 연산을 가능하게 함으로써 개인정보 보호 애플리케이션 분야에서 유망한 기술로 주목받고 있습니다. 강력한 보안 보장에도 불구하고, CKKS는 높은 연산 비용을 수반하는 연산 집약적 연산자 (Compute-intensive Operators, ComOps)와 큰 메모리 점유율을 가진 메모리 집약적 연산자 (Memory-intensive Operators, MemOps)를 모두 포함하고 있어, 기존의 ASIC 기반 또는 NMP (Near-Memory Processing) 기반 가속 방식들은 높은 하드웨어 오버헤드와 제한된 효율성 문제로 어려움을 겪고 있습니다. 이러한 관찰을 바탕으로, 두 패러다임의 아키텍처적 장점을 통합한 이기종 xPU (ASIC)-xMU (NMP) 아키텍처의 필요성이 제기됩니다. 그러나 이러한 설계에서는 지배적인 키 스위치 (Keyswitch) 연산자로 인해 발생하는 빈번하고 지연 시간이 긴 이기종 간 통신이 주요 성능 병목 현상으로 남아 있습니다. 본 논문에서는 데이터 흐름 그래프 (Dataflow Graph, DFG) 최적화 및 아키텍처 공동 설계 (Architecture Co-design)를 적용한 통신 경량 xPU-xMU 이기종 FHE 가속기인 $HE^2$를 제안합니다. 첫째, 우리는 대부분의 통신이 ModUp/ModDown과 인접한 MemOps 사이의 인터페이스에서 발생한다는 점을 관찰했습니다. 이를 해결하기 위해, 우리는 병렬 키 스위치 블록을 식별하고 이를 융합하여 통신 빈도를 줄임으로써, 호이스팅 (Hoisting) 알고리즘의 ModUp/ModDown 감소 잠재력을 완전히 활용할 수 있는 DFG 수준의 최적화 프레임워크를 제안합니다. 둘째, 우리는 분해된 그룹 간의 내재된 병렬성을 활용하여 통신 지연을 효과적으로 숨길 수 있도록 그룹 수준의 파이프라인 실행을 채택한 효율적인 이기종 아키텍처를 설계합니다. 엔드 투 엔드 (End-to-end) 평가 결과에 따르면, $HE^2$는 최신 가속기 대비 1.66배의 속도 향상과 9.23배 낮은 EDAP (Energy-Delay-Area Product)를 달성하였으며, 통신 스톨 (Communication Stalls)은 전체 지연 시간의 6.67%만을 차지했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기