Entropy Gate: LLM 파이프라인 내 근손실 없는 토큰 압축을 위한 엔트로피 억제 (Entropy Quenching)
요약
Entropy Gate는 LLM의 불필요한 토큰을 제거하여 의미적 충실도를 유지하며 압축하는 새로운 프레임워크입니다. 열역학적 개념인 엔트로피 억제를 활용해 토큰의 정보 에너지를 계산하고, 이를 기반으로 효율적인 컨텍스트 관리를 수행합니다.
핵심 포인트
- 엔트로피 억제 방식을 통한 의미 보존형 토큰 압축
- 다요소 정보 에너지 기반의 적응형 토큰 제거 스케줄링
- 에이전트 워크로드에서 최대 88-96%의 압축률 달성
- 모델에 구애받지 않는(Model-agnostic) 상태 비저장 방식
LLM (Large Language Model) 파이프라인은 반복되는 컨텍스트, 장황한 응답, 그리고 불필요한 상용구(boilerplate)와 같은 저정보 콘텐츠에 상당한 토큰 예산을 낭비합니다. 우리는 엔트로피 억제 (entropy quenching) $-$ 의미적 충실도 (semantic fidelity)를 보존하면서 저에너지 토큰을 점진적으로 동결시키는 열역학적 과정 $-$ 를 적용하는 토큰 압축 프레임워크인 Entropy Gate를 소개합니다. 각 토큰은 통계적, 구조적, 위치적 구성 요소를 결합한 다요소 정보 에너지 $E(t)$를 부여받습니다. 적응형 억제 스케줄 $T(τ) = T_0 / (1 + ατ)$은 볼츠만 생존 확률 (Boltzmann survival probability) $p_i = \exp(-E_i / kT)$가 임계값 미만으로 떨어지는 토큰을 제거하며, 충실도 게이트 (fidelity gate)는 에너지 가중 유사도 (energy-weighted similarity)가 $θ$ 미만으로 떨어지면 압축을 중단합니다. 우리는 $E(t)$를 하강함으로써 이루어지는 토큰 선택이 기대 의미 보존 (expected semantic preservation)을 최대화한다는 점, 억제가 중첩된 생존 집합 (nested survival sets)을 생성한다는 점, 그리고 달성 가능한 압축률이 정보 이론적 한계 $\text{CR} \to 1 - I(P; T)/H(P)$에 근접한다는 점을 증명합니다. Phase 1 휴리스틱은 $S_E > 0.80$을 유지하면서 5가지 프롬프트 카테고리에 대해 40-60%의 압축을 달성하며, 에너지 제곱 증폭 (energy-squared amplification) $E \to E^2$를 적용할 경우 10-25%포인트의 성능이 추가됩니다. 컨텍스트 중복 제거 (Context deduplication)는 반복되는 블록에서 50-70%의 절감 효과를 더합니다. 간결함이 정확도를 향상시킨다는 연구 결과에 착안한 출력 측 억제 (Output-side quenching)는 응답 오버헤드를 더욱 줄여줍니다. 외부 메모리 (external memory)와 결합될 경우, 에이전트 워크로드 (agentic workloads)에 대해 압축률은 곱연산으로 적용되어 88-96%에 달합니다. 이 프레임워크는 상태 비저장 (stateless) 방식이며, 모델에 구애받지 않고 (model-agnostic), OpenAI 호환 HTTP 프록시로 배포할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기