압축으로서의 사고: 당신의 추론 모델은 사실 컨텍스트 압축기입니다
요약
본 연구는 사고 모델(thinking model)이 긴 컨텍스트를 자연스럽게 압축할 수 있다는 '압축으로서의 사고(TaC)' 패러다임을 제안합니다. 별도의 압축 모듈 없이 사고 흔적을 활용하며, 제약 조건이 추가된 TaC-C 모델은 기존 압축 방식보다 뛰어난 성능을 입증했습니다.
핵심 포인트
- 사고 모델 자체가 컨텍스트 압축기 역할을 수행 가능함
- 전용 압축 모듈 없이 프롬프팅만으로 압축 효과 달성
- TaC-C 프레임워크를 통해 사고 출력의 밀도와 제어력 향상
- 기존 압축 방식 대비 높은 F1 및 EM 점수 기록
컨텍스트 압축 (Context compression)은 LLM (Large Language Model) 추론 가속화를 위해 정보 손실을 최소화하면서 긴 컨텍스트 입력을 단축하는 것을 목표로 합니다. 기존 방법들이 유망한 성과를 보여주었으나, 대개 복잡한 압축 모듈이나 압축 전용 학습 (compression-specific training)에 의존하고 있어 LLM의 내재적 능력을 충분히 탐구하지 못했습니다. 이와 대조적으로, 본 연구는 사고 모델 (thinking model) 자체가 작업 관련 정보를 정리함으로써 긴 컨텍스트를 자연스럽게 압축할 수 있음을 밝혀냅니다. 이에 따라 우리는 사고 자체를 압축된 컨텍스트로 취급하는 새로운 압축 패러다임인 '압축으로서의 사고 (Thinking as Compression, TaC)'를 도출합니다. TaC는 특정 전용 압축기에 의존하지 않고, 사고 모델이 사고 흔적 (thinking traces)을 단축된 컨텍스트로 생성하도록 직접 프롬프팅하며, 이미 대부분의 대표적인 압축 방법들을 능가하는 성능을 보여줍니다. 나아가, 가공되지 않은 사고 출력은 예산 제어 (budget control) 및 지름길 행동 (shortcut behaviors) 문제로 어려움을 겪을 수 있다는 점을 고려하여, 우리는 단순한 보상 기반 최적화 프레임워크를 활용해 내재적 사고를 조밀하고 제어 가능한 압축 컨텍스트로 이끌어내는 '제약된 압축으로서의 사고 (Thinking as Compression Constrained, TaC-C)'를 도입합니다. 4개의 긴 컨텍스트 QA 벤치마크에 걸친 실험 결과, TaC-C는 기존 베이스라인들을 지속적으로 능가함을 입증했습니다. 4배 및 8배 압축 비율에서, TaC-C는 평균 F1 점수에서 가장 강력한 경쟁자보다 각각 17.4%와 23.4% 높았으며, 평균 Exact Match Score (EM)에서는 각각 15.7%와 21.7% 더 높은 성능을 기록했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기