arXiv논문2026. 04. 30. 21:40

생각의 준말: 엔트로피 가이드된 슈퍼토큰을 통한 LLM 추론 압축

요약

본 논문은 LLM의 추론 과정에서 발생하는 높은 연산 비용 문제를 해결하기 위해 '슈퍼토큰(supertokens)'이라는 새로운 압축 기법을 제안합니다. 이 방법은 추론 토큰을 구조적이고 반복적인 저엔트로피 패턴과 문제 특이적인 고엔트로피 내용으로 분리하여, 전자의 패턴에 크로스워드 BPE 병합을 적용해 슈퍼토큰을 생성하고 이를 모델에 학습시킵니다. 그 결과, 정확도 손실 없이 평균 8.1%의 추론 트레이스를 단축하는 효과를 보였으며, 나아가 이 슈퍼토큰이 모델의 상위 레벨 전략(예: 백트래킹)을 해석 가능한 주석으로 활용될 수 있음을 입증했습니다.

핵심 포인트

LLM 추론 비용 절감을 위해 '슈퍼토큰'이라는 압축 기법을 도입함.
추론 토큰을 저엔트로피 구조적 패턴과 고엔트로피 유기적 내용으로 분리하여 비대칭성을 활용함.
크로스워드 BPE 병합을 통해 슈퍼토큰을 생성하고, 이를 모델에 감독 학습 방식으로 주입함.
이 기법은 정확도 손실 없이 평균 8.1%의 추론 트레이스를 단축하는 효과를 보임.
슈퍼토큰은 단순 압축을 넘어, 백트래킹이나 검증 같은 해석 가능한 '추론 이동' 주석으로 활용되어 모델 전략 분석에 도움을 줌.

대형 언어 모델 (LLM) 의 추론은 상당한 추론 시간 연산 비용을 발생시키지만, 추론 트레이스 (reasoning traces) 의 토큰 단위 정보 구조는 아직 충분히 탐구되지 않았다. 우리는 추론 토큰이 두 가지 기능적 유형으로 분할된다는 것을 관찰했다: 저엔트로피 extit{구조적} 토큰 (추론 과정을 지지하는 반복되는 구문) 과 고엔트로피 extit{유기적} 토큰 (해결책으로 이어지는 문제 특이적 내용). 이 비대칭성은 모델에 독립적인 (model-agnostic) 단순한 압축 파이프라인을 동기화한다: 모델 자신의 추론 트레이스에 대해 크로스워드 BPE 병합 (cross-word BPE merges) 을 적용하여 빈번한 구조적 패턴을 포착하는 extit{슈퍼토큰} (supertokens) 을 유도한 후, 이를 모델을 채택하도록 감독 학습 미세 조정 (supervised fine-tuning) 을 통해 가르친다. 세 가지 모델 계열과 다섯 가지 수학 추론 벤치마크에 걸쳐, 우리의 접근법은 통계적으로 유의미한 정확도 손실 없이 모든 모델-벤치마크 쌍에서 평균 8.1% 의 추론 트레이스 단축을 달성했다. 압축을 넘어, 슈퍼토큰은 해석 가능한 추론 이동 (reasoning-move) 주석 (백트래킹, 검증, 전략 전환) 으로 작용하여 모델의 상위 레벨 전략을 한눈에 드러낸다. 구조적 범주 간의 전이를 분석하면 올바른 트레이스와 잘못된 트레이스 사이의 체계적인 차이를 발견한다: 올바른 트레이스는 생산적 회복 (백트래킹 이후 전략 전환과 검증) 을 보여주지만, 잘못된 트레이스는 혼란 사이클 (반복적인 회피와 해결되지 않은 모순) 에 의해 지배된다. 이러한 진단 신호는 RL 기반 추론 학습에 대한 보상 형성 (reward shaping) 과 조기 종료 (early stopping) 적용을 시사한다.

AI 자동 생성 콘텐츠

원문 바로가기

생각의 준말: 엔트로피 가이드된 슈퍼토큰을 통한 LLM 추론 압축

요약

핵심 포인트

댓글