대형 언어 모델의 숨겨진 무작위성을 특성화하기 위한 배경 온도 도입
요약
대규모 언어 모델(LLMs)은 이론적으로 온도를 0으로 설정해도 입력에 따라 다른 출력을 생성하는 비결정론적 문제를 안고 있습니다. 이 논문은 이러한 구현 의존적인 변동성을 '배경 온도($T_{bg}$)'라는 개념을 도입하여 공식화합니다. 연구진은 $T_{bg}$가 추론 환경에서 발생하는 확률적 섭동과 관련됨을 보여주고, 이를 측정하기 위한 실증 프로토콜을 제안하며 재현성 및 평가에 대한 중요한 함의를 제시합니다.
핵심 포인트
- LLMs는 온도를 0으로 설정해도 구현 수준의 비결정론적 변동성을 보일 수 있다.
- 이러한 환경 의존적인 변동성은 '배경 온도($T_{bg}$)'라는 개념으로 공식화된다.
- $T_{bg}$는 추론 환경(Inference Environment)에 의해 지배되는 확률적 섭동과 관련된다.
- 연구진은 $T_{bg}$를 추정하기 위한 실증적인 프로토콜을 제안하고, 주요 LLM 공급자 모델에서 이를 입증했다.
온도 $T=0$ 로 디코딩하더라도 대형 언어 모델 (LLMs) 은 동일한 입력에 대해 발산하는 출력을 생성할 수 있습니다. Thinking Machines Lab 의 최근 연구는 배치 크기 변동, 커널 비불변성, 부동소수점 비결합성 등을 포함한 구현 수준의 비결정론적 소스를 강조했습니다. 이 짧은 논문에서는 명목상 $T=0$ 인 경우에도 관찰되는 구현에 의존하는 섭동 과정에 의해 유도된 유효 온도를 extit{배경 온도} $T_{ ext{bg}}$ 라는 개념을 도입하여 이러한 행동을 공식화합니다. 우리는 명확한 정의를 제공하며, $T_{ ext{bg}}$ 가 추론 환경 $I$ 에 의해 지배되는 확률적 섭동과 어떻게 관련되는지 보여주고, 이상적인 참조 시스템의 동등 온도 $T_n(I)$ 를 통해 $T_{ ext{bg}}$ 를 추정하기 위한 실증 프로토콜을 제안합니다. 우리는 주요 대형 언어 모델 공급자에서 선택한 대표 풀에서 실행된 일련의 예비 실험으로 이 아이디어를 입증하고, 재현성, 평가, 배포에 대한 함의를 개요합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기