ThinkBooster: LLM 추론의 원활한 테스트 시간 스케일링(Test-Time Scaling)을 위한 통합 프레임워크
요약
LLM의 추론 능력을 높이는 테스트 시간 연산(TTC) 스케일링을 위한 통합 프레임워크 ThinkBooster를 소개합니다. 모듈형 라이브러리, 벤치마크, OpenAI 호환 프록시 및 시각적 디버거를 통해 효율적인 추론 전략을 지원합니다.
핵심 포인트
- TTC 스케일링 전략과 스코어러를 위한 모듈형 Python 라이브러리 제공
- 성능과 계산 효율성을 동시에 평가하는 통합 벤치마크 구축
- OpenAI 호환 프록시를 통한 적응형 추론의 즉각적인 배포 지원
- 추론 경로 및 결정을 검사할 수 있는 시각적 디버거 포함
테스트 시간 연산 (Test-time compute, TTC) 스케일링은 다중 샘플 생성 (multi-sample generation) 및 검증기 기반 재순위화 (verifier-based reranking) 등을 통해 추론 (inference) 과정에서 추가적인 연산을 할당함으로써 대규모 언어 모델 (LLM)의 추론 능력을 향상시키는 강력한 패러다임으로 부상했습니다. 기존의 TTC 스케일링 전략과 추론 스코어러 (reasoning scorers)들은 파편화되어 있고, 일관되지 않은 프로토콜 하에서 평가되며, 품질-비용 트레이드오프 (quality-cost trade-offs) 관점에서 분석되는 경우가 드뭅니다. 본 논문에서는 LLM 추론의 원활한 테스트 시간 연산 스케일링을 위한 통합 프레임워크인 ThinkBooster를 소개합니다. 이는 (i) 최신 TTC 스케일링 전략 및 스코어러 제품군을 구현하는 모듈형 Python 라이브러리, (ii) 성능과 계산 효율성을 공동으로 평가하는 벤치마크, (iii) 실제 애플리케이션에 적응형 추론 (adaptive reasoning)을 즉시 통합할 수 있도록 지원하는 배포 가능한 OpenAI 호환 프록시 서비스로 구성됩니다. 나아가 우리는 추론 궤적 (reasoning trajectories), 중간 선택 결정 (intermediate selection decisions), 그리고 대안적 추론 경로 (alternative reasoning paths)를 검사할 수 있는 데모 시각적 디버거 (visual debugger)를 제공합니다. 수학 및 코딩 작업에 대한 실증적 결과는 TTC 스케일링 전략과 스코어링 방법의 성능-연산 트레이드오프를 밝혀내며, ThinkBooster가 실제 작업에서 실질적인 이득을 제공함을 입증합니다. 코드는 MIT 라이선스 하에 온라인에서 사용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기