Show HN: AutoThink – 적응적 추론으로 로컬 LLM 성능 향상
요약
AutoThink는 쿼리의 복잡도를 분석하여 계산 자원을 적응적으로 할당함으로써 로컬 LLM의 추론 효율성과 성능을 향상시키는 기법입니다. 이 방법은 쿼리를 복잡도에 따라 분류하고, 이에 맞춰 '생각 토큰(thinking tokens)'을 차등적으로 할당하는 것이 핵심입니다. 또한, Microsoft Phi-4 논문의 Pivotal Token Search에서 영감을 받은 스티어링 벡터를 활용하여 모델의 추론 패턴을 안내함으로써 높은 정확도를 달성합니다.
핵심 포인트
- 쿼리 복잡도에 따른 적응적 자원 할당: 모든 쿼리에 동일한 계산 자원을 투입하는 대신, 난이도(HIGH/LOW)에 따라 필요한 토큰 양을 차등적으로 배분하여 효율성을 극대화합니다.
- 스티어링 벡터를 통한 추론 패턴 제어: Pivotal Token Search에서 유래된 스티어링 벡터를 사용하여 모델의 자기 교정, 정확한 탐색 등 원하는 행동 방식을 능동적으로 안내할 수 있습니다.
- 뛰어난 성능 향상 입증: GPQA-Diamond 벤치마크에서 베이스라인 대비 약 43%의 상대적 개선을 보여주었으며, 적은 토큰 사용으로도 높은 효율성을 유지합니다.
- 높은 호환성 및 접근성: DeepSeek, Qwen 등 다양한 로컬 LLM 모델과 API 의존성 없이 쉽게 통합할 수 있습니다.
Show HN: AutoThink – 적응적 추론으로 로컬 LLM 성능 향상
AutoThink 를 개발했습니다. 이는 쿼리의 복잡성에 따라 계산 자원을 적응적으로 할당하여 로컬 LLM 의 추론을 더 효율적으로 만드는 기법입니다.
핵심 아이디어: 모든 쿼리에 동일한 "생각 시간"을 주는 대신, 쿼리를 HIGH 또는 LOW 복잡도로 분류하고 이에 따라 생각 토큰 (thinking tokens) 을 할당합니다. 복잡한 추론에는 70-90% 의 토큰이 할당되고, 간단한 쿼리에는 20-40% 가 할당됩니다.
또한 Microsoft 의 Phi-4 논문에서 유래한 Pivotal Token Search 에서 도출된 스티어링 벡터 (steering vectors) 를 구현하여, 생성 과정에서 모델의 추론 패턴을 안내합니다. 이러한 벡터는 수치적 정확도, 자기 교정, 철저한 탐색과 같은 행동을 장려합니다.
DeepSeek-R1-Distill-Qwen-1.5B 에서의 결과:
- GPQA-Diamond: 베이스라인 대비 31.06% vs 21.72% (+43% 상대적 개선)
- MMLU-Pro: 26.38% vs 25.58% 베이스라인
- 베이스라인 접근법보다 적은 토큰 사용
DeepSeek, Qwen, 커스텀 파인튜닝 모델 등 모든 로컬 추론 모델과 호환됩니다. API 의존성 없음.
이 기법은 제가 개발한 두 가지 요소에 기반합니다: 재학습 없이 새로운 복잡도 범주를 학습할 수 있는 적응적 분류 프레임워크와 Pivotal Token Search 의 오픈소스 구현체입니다.
- 기술 논문: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5253327
- 코드 및 예제: https://github.com/codelion/optillm/tree/main/optillm/autoth...
- PTS 구현체: https://github.com/codelion/pts
AI 추론에 대한 적응적 자원 할당에 대해 어떻게 생각하시나요? 로컬 모델에서 유사한 접근법을 시도해 보신 적이 있으신가요?
AI 자동 생성 콘텐츠
본 콘텐츠는 HN AI Research의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기