반복된 LLM 추론의 투표 정확도 곡선: 두 호출, 두 모멘트
요약
본 논문은 반복적인 LLM 추론(repeated sampling)의 성능이 단순히 단일 호출 정확도로 결정되는 것이 아니라, 예시별 정답 확률의 잠재 분포에 의해 결정됨을 분석합니다. 연구진은 조건부 독립 동일 분포 하에서 2차 모멘트까지 활용하여 안정적 오류와 회복 가능한 무작위성을 구분하는 방법을 제시하며, 이를 통해 고정된 다수 투표 예산이 분포에 관계없이 일정한 성능 이득을 제공함을 보였습니다. 또한, 최대 엔트로피 및 잠재 난이도 가우시안-프로빗(LDGP) 점 완성을 추가하여 실험적으로 3표 및 5표 정확도가 2 호출 영역에 포함됨을 입증했습니다.
핵심 포인트
- LLM 추론의 성능은 단일 호출 정확도를 넘어 예시별 정답 확률의 잠재 분포(잠재 모멘트)를 고려해야 한다.
- 두 개의 라벨링된 호출은 단순히 평균 성공 확률뿐만 아니라 2차 모멘트를 식별하여 오류와 무작위성을 구분할 수 있게 한다.
- 다수 투표(majority-vote) 예산은 분포에 관계없이 일정한 성능 이득을 제공하는 '분포 비의존적' 특성을 가진다.
- 최대 엔트로피 및 LDGP 점 완성을 통해 3표 및 5표 정확도가 2 호출 영역 내에 포함됨을 실험적으로 확인했다.
반복 샘플링 (repeated sampling) 은 테스트 시간 컴퓨팅을 소비하는 표준적인 방법이지만, 그 이점은 단일 호출 정확도 (one-call accuracy) 만으로 제어되는 것이 아니라 예시별 정답 확률의 잠재 분포에 의해 결정됩니다. 우리는 조건부 독립 동일 분포 (conditional-i.i.d.) 호출 하에서 반복된 LLM 추론의 이진 정답 레이어를 연구합니다. 하나의 라벨링된 호출은 평균 잠재 성공 확률을 식별하고, 두 개의 라벨링된 호출은 그 2 차 모멘트 (second moment) 를 식별하며, 이는 안정적 오류와 회복 가능한 호출 수준의 무작위성을 구분하는 동일한 예시의 정답 상관관계를 제공합니다. 이러한 두 모멘트로부터, 모든 고정된 다수 투표 예산 (fixed majority-vote budget) 은 분포에 무관한 2 호출 간격 (distribution-free two-call interval) 을 가집니다. 핵심적인 기술적 축소는 무한 차원 모멘트 문제 (infinite-dimensional moment problem) 가 모든 유한 예산에 대해 3 개 원자 극대화자 (three-atom extremizers) 와 2 차 쌍대 증명서 (quadratic dual certificates) 를 가지므로, 이 경계는 이산화되거나 파라메트릭이 아닌 정확한 것입니다. 첫 번째 유용한 예산인 3 표는 닫힌 형태를 가지며, 너비는 최대 $1/8$이며, 인증 개선 기준 (certified-improvement criterion) 을 가집니다. 무한 투표 단점은 다수 투표를 호출 수가 무한대로 갈 때의 한계점입니다; 이는 또한 선명하게 경계되지만, 잠재 질량이 $q=1/2$ 근처에 의존하기 때문에 임계값 민감성 (threshold-sensitive) 을 유지합니다. 우리는 최대 엔트로피와 잠재 난이도 가ussian-probit (LDGP) 점 완성을 추가하고, QNLI 와 QQP LLM 호출 실험을 통해 경험적 3 표 및 5 표 정확도가 투영된 2 호출 영역에 포함되지만, 온도 변화와 랜덤화된 모델 혼합은 단일 호출 정확도에 의해 순서가 정렬되지 않은 투표 이득을 생성할 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기