LLMs가 LLM을 개선하다: 테스트 시간 스케일링(Test-Time Scaling)을 위한 에이전트적 탐색
요약
본 논문은 대규모 언어 모델(LLM)의 성능을 향상시키는 테스트 시간 스케일링(Test-time scaling, TTS) 기법에 대한 새로운 접근 방식인 AutoTTS를 제안합니다. 기존 TTS 전략들이 수작업으로 설계되어 탐색 공간이 제한적이었던 문제를 해결하기 위해, AutoTTS는 LLM이 최적의 자원 할당을 자동으로 발견할 수 있는 환경 기반 프레임워크를 제공합니다.
핵심 포인트
- 테스트 시간 스케일링(TTS)은 LLM 성능 향상에 효과적인 방법이지만, 기존 전략들은 수동 설계에 의존하여 탐색 공간이 제한적이다.
- AutoTTS는 TTS 휴리스틱을 개별적으로 설계하는 대신, 최적의 자원 할당 전략이 자동으로 발견되는 환경 기반 프레임워크를 제공한다.
- 제안된 AutoTTS 환경은 제어 공간(control space)을 다루기 쉽고, 검색에 필요한 저렴하고 빈번한 피드백을 제공하도록 설계되었다.
테스트 시간 스케일링(Test-time scaling, TTS)은 추론 과정에서 추가적인 계산 자원을 할당하여 대규모 언어 모델(LLM)의 성능을 향상시키는 효과적인 접근 방식이 되었습니다. 하지만 기존의 TTS 전략들은 대부분 수작업으로 설계되었습니다. 연구자들이 직관에 의존하여 추론 패턴을 수동으로 설계하고 휴리스틱(heuristics)을 조정하는 방식으로, 계산 자원 할당 공간의 상당 부분이 탐색되지 못하고 있습니다. 본 논문에서는 환경 기반 프레임워크인 AutoTTS를 제안하며, 이는 연구자들이 설계해야 하는 대상을 변화시킵니다. 즉, 개별적인 TTS 휴리스틱에서 TTS 전략이 자동으로 발견될 수 있는 환경으로 전환하는 것입니다. AutoTTS의 핵심은 환경 구축에 있습니다. 탐색 환경은 제어 공간(control space)을 다루기 쉽도록 만들고, TTS 검색을 위한 저렴하고 빈번한 피드백을 제공해야 합니다. 구체적인 구현 사례로,
utes. 저희 데이터와 코드는 https://github.com/zhengkid/AutoTTS에서 오픈 소스로 공개될 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기