arXiv논문2026. 06. 23. 12:25

$π$-RAG: 대규모 언어 모델(LLM)을 위한 의미론적 양자화 및 초월적 주소 지정 기반의 망각형 검색

요약

$π$-RAG는 LLM이 민감한 데이터에 직접 접근하지 못하도록 수학적 불변성을 활용한 망각형 검색 아키텍처를 제안합니다. $π$를 이용한 초월적 엔트로피와 의미론적 양자화를 통해 데이터 보안을 강화하고 프라이버시를 보장합니다.

핵심 포인트

$π$를 활용한 불변의 간접 계층 생성으로 데이터 보안 강화
의미론적 양자화를 통한 사용자 입력의 표준 의도 중심점 투영
결정론적 무작위성과 차분 프라이버시를 통한 보안성 확보
금융 및 의료 등 규제 준수가 중요한 분야에 최적화

본 논문은 의미론적 이해를 희생하지 않으면서 대규모 언어 모델(LLM)을 민감한 데이터 저장소로부터 분리하는 새로운 망각형 검색(oblivious retrieval) 아키텍처인 $π$-RAG를 소개합니다. 전통적인 검색 증강 생성 (RAG) 아키텍처는 원시 벡터 임베딩 (raw vector embeddings)을 잠재적인 역전 공격 (inversion attacks) 및 비결정론적 검색 실패에 노출시킵니다. 이를 해결하기 위해, 우리는 $π$의 숫자를 초월적 엔트로피 (transcendental entropy)의 원천으로 활용하여 LLM과 개인 기록 사이에 불변의 간접 계층 (indirection layer)을 생성합니다. $π$ 값은 불변성을 제공하며, 수정이 불가능하고 수학에 의해 제어됩니다. 또한 이 아키텍처는 의미론적 양자화 계층 (Semantic Quantization Layer)을 도입합니다. 이 계층은 사용자 입력을 미리 계산된 표준 의도 중심점 (Canonical Intent Centroids)의 매니폴드 (manifold)로 투영합니다. RAG는 벡터 코사인 유사도 (vector cosine similarity)를 수행하지만, 여기서는 암호화 솔트 (cryptographic salt)를 통해 중심점을 결정론적 오프셋 (deterministic offsets)으로 매핑합니다. 결과물인 $π$-key는 실제 데이터 저장소의 표준화된 페이로드 (payload)를 가리키는 포인터 역할을 합니다. LLM을 통한 데이터 저장소로의 직접적인 접근을 이 초월적 계층으로 대체함으로써, $π$-RAG는 추론 과정이 데이터에 대해 망각 상태(oblivious)로 유지됨을 수학적으로 보장합니다. 이 아키텍처는 결정론적 무작위성 (deterministic randomness), 감사 가능성 (auditability), 그리고 차분 프라이버시 (differential privacy)를 통합하며, 금융 및 의료와 같이 규제 준수가 엄격한 분야에서 높은 효능을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

$π$-RAG: 대규모 언어 모델(LLM)을 위한 의미론적 양자화 및 초월적 주소 지정 기반의 망각형 검색

요약

핵심 포인트

댓글