생각의 준말: 엔트로피 가이드된 슈퍼토큰을 통한 LLM 추론 압축
요약
본 논문은 LLM의 추론 과정에서 발생하는 높은 연산 비용 문제를 해결하기 위해 '슈퍼토큰(supertokens)'이라는 새로운 압축 기법을 제안합니다. 이 방법은 추론 토큰을 구조적이고 반복적인 저엔트로피 패턴과 문제 특이적인 고엔트로피 내용으로 분리하여, 전자의 패턴에 크로스워드 BPE 병합을 적용해 슈퍼토큰을 생성하고 이를 모델에 학습시킵니다. 그 결과, 정확도 손실 없이 평균 8.1%의 추론 트레이스를 단축하는 효과를 보였으며, 나아가 이 슈퍼토큰이 모델의 상위 레벨 전략(예: 백트래킹)을 해석 가능한 주석으로 활용될 수 있음을 입증했습니다.
핵심 포인트
- LLM 추론 비용 절감을 위해 '슈퍼토큰'이라는 압축 기법을 도입함.
- 추론 토큰을 저엔트로피 구조적 패턴과 고엔트로피 유기적 내용으로 분리하여 비대칭성을 활용함.
- 크로스워드 BPE 병합을 통해 슈퍼토큰을 생성하고, 이를 모델에 감독 학습 방식으로 주입함.
- 이 기법은 정확도 손실 없이 평균 8.1%의 추론 트레이스를 단축하는 효과를 보임.
- 슈퍼토큰은 단순 압축을 넘어, 백트래킹이나 검증 같은 해석 가능한 '추론 이동' 주석으로 활용되어 모델 전략 분석에 도움을 줌.
대형 언어 모델 (LLM) 의 추론은 상당한 추론 시간 연산 비용을 발생시키지만, 추론 트레이스 (reasoning traces) 의 토큰 단위 정보 구조는 아직 충분히 탐구되지 않았다. 우리는 추론 토큰이 두 가지 기능적 유형으로 분할된다는 것을 관찰했다: 저엔트로피 extit{구조적} 토큰 (추론 과정을 지지하는 반복되는 구문) 과 고엔트로피 extit{유기적} 토큰 (해결책으로 이어지는 문제 특이적 내용). 이 비대칭성은 모델에 독립적인 (model-agnostic) 단순한 압축 파이프라인을 동기화한다: 모델 자신의 추론 트레이스에 대해 크로스워드 BPE 병합 (cross-word BPE merges) 을 적용하여 빈번한 구조적 패턴을 포착하는 extit{슈퍼토큰} (supertokens) 을 유도한 후, 이를 모델을 채택하도록 감독 학습 미세 조정 (supervised fine-tuning) 을 통해 가르친다. 세 가지 모델 계열과 다섯 가지 수학 추론 벤치마크에 걸쳐, 우리의 접근법은 통계적으로 유의미한 정확도 손실 없이 모든 모델-벤치마크 쌍에서 평균 8.1% 의 추론 트레이스 단축을 달성했다. 압축을 넘어, 슈퍼토큰은 해석 가능한 추론 이동 (reasoning-move) 주석 (백트래킹, 검증, 전략 전환) 으로 작용하여 모델의 상위 레벨 전략을 한눈에 드러낸다. 구조적 범주 간의 전이를 분석하면 올바른 트레이스와 잘못된 트레이스 사이의 체계적인 차이를 발견한다: 올바른 트레이스는 생산적 회복 (백트래킹 이후 전략 전환과 검증) 을 보여주지만, 잘못된 트레이스는 혼란 사이클 (반복적인 회피와 해결되지 않은 모순) 에 의해 지배된다. 이러한 진단 신호는 RL 기반 추론 학습에 대한 보상 형성 (reward shaping) 과 조기 종료 (early stopping) 적용을 시사한다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기