대규모 언어 모델(LLM)을 위한 적응형 다중 해상도 절차적 지식 압축
요약
LLM의 절차적 지식 주입 시 발생하는 비용과 지연 시간을 줄이기 위한 새로운 압축 프레임워크 SKIM을 제안합니다. SKIM은 기술의 복잡도에 따라 적응형 다중 해상도 소프트 토큰을 생성하여 성능을 유지하면서도 효율적인 압축을 가능하게 합니다.
핵심 포인트
- LLM의 절차적 지식 압축을 위한 SKIM 프레임워크 제안
- 워크플로우와 도구 프로토콜 간의 논리적 의존성 보존
- 기술 복잡도에 따른 적응형 소프트 토큰 생성 방식
- 기존 대비 30~60% 수준의 효과적인 토큰 압축 달성
- 추론 효율성 향상 및 작업 성능 유지 확인
대규모 언어 모델(LLMs)은 자율적인 워크플로우(workflows)를 통해 복잡한 작업을 해결하는 데 널리 사용됩니다. 최근에는 재사용 가능한 자연어 기술(natural language skills)이 LLM 애플리케이션에 절차적 지식(procedural knowledge)을 주입하는 인기 있는 패러다임으로 부상했습니다. 인기 있는 기술들은 종종 반복적으로 호출되기 때문에, 모든 컨텍스트(context)에 전체 텍스트를 배치하는 것은 프리필(prefill) 비용과 지연 시간(latency)을 크게 증가시킵니다. 텍스트 압축 기술이 이 문제를 해결할 잠재력을 가지고 있지만, 기존의 대부분의 방법은 기술(skill) 압축보다는 문서 내의 사실적 지식(factual knowledge)을 압축하도록 설계되어 있어 기술 압축에는 불충분합니다. 본 논문에서 우리는 효과적인 기술 압축 방법이 다음과 같아야 한다고 주장합니다: 1) 워크플로우(workflows)와 도구 프로토콜(tool protocols) 사이의 논리적 의존성(logical dependencies)을 보존해야 함, 2) 빈번하게 업데이트되는 커뮤니티 기술을 위해 가볍고 오프라인적인 압축을 가능하게 해야 함, 3) 기술 전반에 걸친 다양한 복잡성에 적응할 수 있어야 함. 이를 해결하기 위해, 우리는 절차적 기술을 위한 적응형 다중 해상도 소프트 토큰(soft token) 압축 프레임워크인 SKIM (SKIll coMpression)을 제시합니다. 각 기술의 복잡성에 따라 SKIM은 서로 다른 수의 소프트 토큰을 생성하며, 이는 LLM 추론(inference)의 효율성을 향상시킬 뿐만 아니라 기술 사용의 효과성도 보존합니다. 실험 결과에 따르면, SKIM은 기존 압축 방법보다 작업 성능을 더 잘 유지하면서 기술을 원래 토큰 길이의 30~60%로 압축합니다. 우리는 코드를 https://github.com/bebr2/SKIM 에서 공개했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기