
양자 영감이 아닌 양자 기반: 프로덕션 LLM 압축 이면에 숨겨진 텐서 네트워크(Tensor Networks)의 물리학
요약
LLM 압축 기술의 핵심인 텐서 네트워크(Tensor Networks)의 물리적 기원과 수학적 원리를 설명합니다. 실제 양자 컴퓨팅이 아닌, 양자 다체 시스템 시뮬레이션을 위해 개발된 물리적 도구가 어떻게 현대 LLM의 가중치 행렬 최적화에 적용되는지 다룹니다.
핵심 포인트
- 텐서 네트워크는 양자 다체 문제를 해결하기 위한 물리적 도구에서 유래함
- 현재 LLM 압축은 실제 양자 하드웨어가 아닌 GPU 기반의 수학적 기법임
- 면적 법칙(Area Law)을 통해 얽힘 엔트로피를 제어하며 효율적 계산 가능
- DMRG와 같은 물리적 알고리즘이 신경망 가중치 최적화에 활용됨
무엇보다 먼저 명확히 할 점: "양자 영감 (Quantum-Inspired)" ≠ "양자 컴퓨팅 (Quantum Computing)"
이 점은 모호함 없이 명시되어야 합니다. 그렇지 않으면 독자들에게 오해를 줄 위험이 있기 때문입니다. 이 글에서 다루는 모든 기술은 오늘날 프로덕션 환경에서 일반 GPU 상에서 실행됩니다. 여기서 "양자 (quantum)"라는 단어는 실제 큐비트 (qubit) 하드웨어를 의미하는 것이 아니라, 이 도구 세트의 수학적/물리적 기원 (origin) — 즉, 원래 고전 컴퓨터에서 다체 양자 시스템 (many-body quantum systems)을 시뮬레이션하기 위해 구축된 도구들 — 을 의미합니다.
2026년 중반 기준 실제 양자 하드웨어의 상태는 다음과 같습니다. 우리는 명백히 후기 NISQ (Noisy Intermediate-Scale Quantum, 노이즈가 있는 중간 규모 양자) 시대에 머물러 있습니다. 대략 50200개의 물리적 큐비트, 10⁻³에서 10⁻² 범위의 게이트 오류율 (gate error rates), 그리고 진정한 결함 허용 (fault tolerance) 기능이 없는 상태입니다. 프로덕션 규모의 오류 수정 (error-corrected) 시스템은 20302035년 사이에 등장할 것으로 예상됩니다. 쉽게 말해, 오늘날 어떤 실제 양자 컴퓨터도 프로덕션 데이터 센터에서 어떤 LLM의 RAM을 줄여주지 못합니다. 이와 반대되는 모든 주장은 틀렸거나 마케팅일 뿐입니다.
실제로 존재하는 것은 **텐서 네트워크 (tensor networks)**라고 불리는 완전한 수학적 학문입니다. 이는 1990년에서 2011년 사이에 응집 물질 물리학자 (condensed-matter physicists)들이 다루기 힘든 양자 다체 문제 (quantum many-body problems)를 해결하기 위해 구축한 메커니즘이며, 2015년부터 머신러닝 (ML) 연구자들에 의해 신경망 가중치 행렬 (neural network weight matrices)에 맞게 조정되었고, 2023~2024년부터는 특히 LLM에 적용되었습니다. 이것이 이 글의 진짜 주제입니다.
원래의 물리학 문제: 밀도 행렬 재규격화 군 (DMRG)이 작동했던 이유
1992년, Steven White는 1차원 양자 스핀 체인 (quantum spin chains)의 바닥 상태 (ground states)를 계산하기 위해 DMRG (Density Matrix Renormalization Group)를 도입했습니다. 문제는 국소 차원 (local dimension)이 d인 L-사이트 시스템의 힐베르트 공간 (Hilbert space)이 d^L로 성장한다는 것이었습니다. 이는 재앙적인 지수적 성장입니다. 해결책은 **면적 법칙 (Area Law)**이라고 불리는 정밀한 물리적 관찰에 기반했습니다.
정확한 진술: 에너지 갭 (energy gap)이 있는 국소 해밀토니안 (local Hamiltonian)의 바닥 상태 (ground state)에 대해, 시스템의 두 분할 사이의 얽힘 엔트로피 (entanglement entropy)는 부피가 아니라 이들을 분리하는 **경계 면적 (boundary area)**에 따라 스케일링됩니다. 1차원 (1D)에서 두 블록 사이의 "면적"은 단일 점 (0차원)입니다. 즉, 엔트로피는 시스템 크기에 따라 전혀 증가하지 않으며, 유계 (bounded) 상태를 유지합니다.
형식적으로는 다음과 같습니다: 시스템을 A와 B로 나누고, 축약 밀도 행렬 (reduced density matrix)을 형성합니다:
ρ_A = Tr_B(|Ψ⟩⟨Ψ|)
그리고 폰 노이만 얽힘 엔트로피 (von Neumann entanglement entropy)를 계산합니다:
S(ρ_A) = -Tr(ρ_A ln ρ_A)
면적 법칙 (area law)에 따르면, S는 A의 크기에 관계없이 유계 (bounded) 상태를 유지하며, A의 크기에 따라 커지지 않습니다.
행렬 곱 상태 (Matrix Product States, MPS) 및 결합 차원 (Bond Dimension): 물리학과 계산이 만나는 지점
이것이 계산적으로 왜 중요할까요? 면적 법칙을 따르는 모든 양자 상태는 **결합 차원 (bond dimension, χ 또는 D로 표기)**에 의해 연결된 텐서 체인인 **행렬 곱 상태 (MPS)**로 정확하게 표현될 수 있기 때문입니다. 결합 차원과 엔트로피 사이의 정확한 관계는 여기에서 자세히 다루고 있습니다:
S ≤ 2 ln(D) (MPS 내의 모든 이분할에 대한 엄격한 상한)
χ ~ exp(S) (필요한 결합 차원은 엔트로피에 따라 지수적으로 증가함)
실질적인 이점은 다음과 같습니다: 1차원 갭이 있는 시스템 (1D gapped systems)에서 면적 법칙에 의해 보장되듯 엔트로피 S가 유계 상태를 유지한다면, 시스템 크기가 커지더라도 필요한 결합 차원은 일정하게 유지됩니다. 따라서 DMRG (단계당 O(χ³) 비용)는 지수 시간이 아닌 다항식 (polynomial) 시간 내에 실행됩니다. 이것이 바로 DMRG가 30년 넘게 양자 다체 시뮬레이션 (quantum many-body simulation)을 지배해 온 정확한 이유입니다.
2차원 확장(The 2D extension)은 더 어렵습니다: **투영된 얽힘 쌍 상태 (Projected Entangled Pair States, PEPS)**는 MPS를 2차원 격자(lattice)로 일반화합니다. 여기서 면적 법칙(area law)은 엔트로피가 영역의 **둘레(perimeter)**에 비례하고 면적에는 비례하지 않는다는 것을 의미합니다. 즉, 결합 차원 $\chi$를 가진 $L\times L$ 정사각형 블록의 경우, 엔트로피 상한은 $L\cdot\log(\chi)$입니다 (이는 $L^2$이 아닌 $L$에 비례함). 하지만 대가는 따릅니다: PEPS 자체 내에서 필요한 결합 차원은 시스템 너비(system width)에 따라 지수적으로 증가합니다. 따라서 계산 비용은 일반적인 MPS보다 훨씬 어렵습니다. 이것이 바로 LLM 압축 연구자들이 단순한 선형 상관관계(예: 임베딩 테이블의 경우)가 아닌 다방향 상관관계(예: 어텐션 레이어의 경우)를 포착해야 할 때, 단순 MPS 대신 **iPEPS + 텐서 재규격화 그룹 (Tensor Renormalization Group, TRG)**을 사용하는 이유입니다.
응축 물질 물리학에서 가중치 행렬로: 실제 연결고리
이 전체 연구 방향의 핵심 주장은 다음과 같습니다: 학습된(trained, 무작위가 아닌) 신경망 가중치 행렬은 낮은 유효 얽힘/상관관계 구조를 보인다 — 즉, 그들의 실제 정보 내용은 원시 파라미터 개수가 시사하는 것보다 훨씬 작다는 의미입니다.
이것은 철학적인 가정이 아닙니다. 직접적인 경험적 근거가 있습니다. KARIPAP 논문(2025년 10월, iPEPS + TRG)은 LLaMA-2 7B에 대해
정확히 짚고 넘어가야 할 기술적 차이점이 하나 있습니다. 이것은 일반적인 저계수 분해 (low-rank decomposition, 단순 2D SVD)와는 다른 것입니다. 텐서 네트워크 (Tensor networks) — 구체적으로는 상태 (states)가 아닌 가중치 행렬 (weight matrices)에 적용되는 연산자 공간 변형인 MPO (Matrix Product Operator) — 는 이 개념을 일반화합니다. 즉, 행렬을 고차원 텐서 (higher-order tensor)로 재구성하여 단일 차원이 아닌 _여러 차원에 걸친 상관관계 (correlations)_를 동시에 포착합니다. 이것이 바로 TensorGPT (2023)가 임베딩 레이어 (embedding layer)를 특정하여 목표로 삼았던 정확한 이유입니다. 임베딩 테이블 (embedding tables)은 (단어 → 서브워드 → 문자)로 이어지는 자연스러운 계층적 구조를 가지고 있으며, 이는 Novikov 등이 작성한 원본 "Tensorizing Neural Networks" (2015)로 거슬러 올라가는 접근 방식인 텐서 트레인 인수분해 (tensor-train factorization)에 깔끔하게 매핑됩니다.
두 번째 흐름: 디스엔탱글러 (Disentanglers) — 압축 전 상관관계 제거
"Quantum Large Language Models via Tensor Network Disentanglers" (Aizpurua et al., 2024)에서 제시된 더 깊이 있는 기술은 **MERA (Multi-scale Entanglement Renormalization Ansatz)**에서 영감을 얻었습니다. 직접 압축하는 대신, 먼저 국소 유니터리 변환 (local unitary transformations) (디스엔탱글러, disentanglers)을 적용하여 단거리 얽힘 (short-range entanglement)을 제거합니다. 이렇게 하면 후속되는 거친 입도화 (coarse-graining) 과정에서는 남은 장거리 구조 (long-range structure)만을 다루면 되며, 이는 압축 비용이 훨씬 저렴합니다. 실무적으로는, 만약 인접한 두 트랜스포머 레이어 (transformer layers)가 중복된 상관관계를 가지고 있다면, 저렴한 국소 변환을 통해 해당 중복성을 먼저 제거합니다. 그러면 실제 압축 단계는 남은 부분에 대해서만 작동하게 되어, 이러한 전처리 없이 직접 압축할 때보다 더 정확한 결과를 생성합니다.
세 번째 흐름 (그리고 진정으로 다른 흐름): 디퀀타이제이션 (Dequantization) — 실제 의미와 그렇지 않은 것
이 지점이야말로 정밀함이 가장 중요한데, 왜냐하면 매우 다른 두 가지 개념이 끊임없이 혼동되기 때문입니다.
2018년, 당시 17세의 학부생이었던 Ewin Tang은 놀라운 일을 해냈습니다. 그녀는 양자 머신러닝 (Quantum Machine Learning)에서 _증명 가능한 지수적 가속 (provable exponential speedup)_을 위한 가장 강력한 후보 중 하나로 여겨졌던 양자 알고리즘(Kerenidis-Prakash의 양자 추천 시스템)을 가져와, 동일한 결과가 **고전적 (classically)**으로도 달성 가능하다는 것을 증명했습니다. 즉, $\ell^2$-norm 샘플링을 지원하는 데이터 구조가 주어졌을 때, $O(\text{poly}(k) \cdot \log(mn))$ 시간 내에 rank-$k$ 근사 샘플을 생성하는 고전 알고리즘이 양자 버전보다 지수적으로 느린 것이 아니라, 단지 다항식(polynomially) 수준으로만 느리다는 것을 증명한 것입니다. 결과적으로: Kerenidis-Prakash의 알고리즘은 고전적 계산에 대해 실제로 지수적 가속을 제공하지 않았습니다. 주장된 이점은 양자 역학 그 자체가 아니라, 입력 데이터 구조에 대한 강력한 가정에 기반하고 있었기 때문입니다. 이 연구는 이후 광범위한 양자 SVT (Singular Value Transformation, 특이값 변환) 알고리즘을 "역양자화 (dequantizing)"하기 위한 완전한 프레임워크로 일반화되었습니다 (Chia, Gilyén, Li, Lin, Tang, Wang — STOC 2020, JACM 2022).
필요한 구분: 역양자화는 **계산 복잡도 이론 (computational complexity theory)**의 결과입니다. 즉, "양자와 동일한 속도로 고전적으로 무엇을 계산할 수 있는가?"에 대한 답이지, 발표된 프로덕션 LLM 압축 기술이 아닙니다. Tang 본인도 이를 명확히 밝혔습니다: "당신이 고전적인 사람이라면, 이러한 전처리 (pre-processing)를 수행하지 않을 것입니다." 이 알고리즘들이 요구하는 $\ell^2$-sampling 데이터 구조는 구축 비용이 많이 들며, 실제 어떤 LLM의 가중치 행렬 (weight matrices)도 그런 형태로 제공되지 않습니다. 따라서: 오늘날 어떤 프로덕션 시스템도 LLM의 RAM 점유율을 줄이기 위해 역양자화된 알고리즘을 사용하지 않습니다. 이는 실제로 배포되어 사용되고 있는 MPO/tensor-train 분해 (decomposition) (CompactifAI, KARIPAP, TensorGPT)와는 대조적입니다.
이 맥락에서 탈양자화 (dequantization)의 진정한 가치는 다음과 같습니다. 즉, 모든 저계수 행렬 연산 (low-rank matrix operation)에 대한 **근본적인 하한선 (fundamental lower bounds)**을 설정한다는 점입니다. 이는 진정한 가속 (양자 또는 고전적 가속)이 어디서 끝나고, 어디서부터 물리적인 한계치 (hard floor)가 시작되는지를 정확하게 알려줍니다. 이는 새로운 압축 알고리즘을 설계할 때 매우 가치 있는 정보입니다 (수학적으로 불가능한 것과 현실적으로 달성 가능한 것의 차이를 미리 알 수 있기 때문). 하지만 이것이 오늘 당장 추론 파이프라인 (inference pipeline)에 바로 적용할 수 있는 요소는 아닙니다.
실제 "RAM 조절 노브"로서의 결합 차원 (Bond Dimension)
이 모든 내용을 프로덕션 엔지니어링과 연결하는 핵심은 다음과 같습니다. **결합 차원 (bond dimension) χ는 압축률과 모델 정확도 사이의 트레이드오프 (tradeoff)를 제어하는 유일하고 실질적인 레버 (lever)**입니다. 정확도 2~3% 손실을 감수하면서 메모리를 93% 절감한다는 수치 (KARIPAP)는 단순히 χ 곡선 상의 측정된 한 지점일 뿐입니다. χ가 작을수록 압축률은 높아지지만 정확도 손실도 커지며, 이 관계는 선형적이지 않습니다. (레이어별 프로파일링 (layer-wise profiling) 결과가 보여주듯) 각 레이어의 실제 엔트로피 (entropy)를 따릅니다.
이어지는 내용에서는 프로덕션 환경에서 (하나의 전역적인 숫자가 아니라) 레이어별로 χ를 실제로 선택하는 방법, 이것이 DeepSeek/MiniMax에 이미 배포된 양자화 기술 (INT4/INT8/FP8) 및 KV-캐시 (KV-cache) 압축과 어떻게 결합되는지, 그리고 데이터 센터의 CXL 메모리 분리 (memory disaggregation) 아키텍처와의 관계를 다룹니다. 또한, 에러 핸들링 (error handling)과 메모리 프로파일링 (memory profiling)이 포함된, 가중치 행렬 (weight matrix)에 텐서 트레인 분해 (tensor-train decomposition)를 적용하기 위한 실제 프로덕션급 PyTorch 코드를 함께 제공합니다.
결합 차원에서 실제 PyTorch 레이어로
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기
