QuasiMoTTo: Quasi-Monte Carlo 테스트 시간 스케일링 (Test-Time Scaling)

문제당 많은 병렬 시도를 생성함으로써 추론 연산(inference compute)을 스케일링하는 것은 언어 모델의 능력을 향상시키기 위한 비용이 많이 들지만 신뢰할 수 있는 수단입니다. 기본적으로 이러한 시도들은 독립적으로 생성되며, 이는 중복된 솔루션에 추론 연산을 낭비하게 만듭니다. 이러한 낭비는 피할 수 없는 것처럼 보입니다. 결국, 독립성은 병렬 샘플링을 손쉽게 스케일링할 수 있게 만드는 핵심이기 때문입니다. 그러나 이러한 트레이드오프(tradeoff)는 근본적인 것이 아닙니다. 상관관계가 있지만 정확한 샘플을 완전히 병렬로 생성하는 샘플러(sampler)의 풍부한 설계 공간이 존재합니다. 우리는 추론 연산 스케일링 및 강화학습 (RL)에서 샘플 효율성을 개선하기 위한 방안으로 이 설계 공간을 탐구합니다. 구체적으로, 우리는 i.i.d. (독립 동일 분포) 샘플을 대체하여 상관관계가 있는 샘플을 즉시 사용할 수 있는 QuasiMoTTo를 소개합니다. 이러한 샘플을 생성하기 위해, QuasiMoTTo는 자기회귀적 샘플링 (autoregressive sampling)을 역-CDF (inverse-CDF) 샘플링으로 재매개변수화하고, Quasi-Monte Carlo (QMC)를 사용하여 기저의 균등 분포 (uniforms)를 추출합니다. QMC는 i.i.d.보다 균등 분포를 더 고르게 퍼뜨리기 때문에, 결과적으로 생성된 샘플은 훨씬 적은 중복으로 출력 공간을 커버합니다. 배치(batch)가 상관되어 있음에도 불구하고, 각 샘플은 언어 모델에 따라 주변 분포 (marginally distributed)를 따르므로, 우리는 이 배치를 정책 경사 (policy-gradient) 학습에 사용할 수 있습니다. 우리의 실증적 분석은 QuasiMoTTo가 연산을 얼마나 효율적으로 성능으로 전환할 수 있는지 이해하는 데 중점을 둡니다. 의존성으로 인해 표준 pass@k 추정치를 깨뜨리는 상관관계가 있는 샘플러를 평가하기 위해, 우리는 먼저 편향되지 않은 부트스트랩 추정기 (unbiased bootstrap estimator)를 개발했습니다. 4개의 추론 벤치마크 전반에서, QuasiMoTTo는 25-47% 더 적은 샘플로 i.i.d. pass@k 정확도와 일치하는 성능을 보였습니다. 놀랍게도, QuasiMoTTo는 주변 분포를 보존하는 모든 샘플러에 적용되는 pass@k의 상한선에 자주 도달합니다. 우리는 또한 QuasiMoTTo를 정책 경사 RL (GRPO)에 적용하였으며, 여기서 50% 더 적은 학습 단계로 i.i.d. 성능과 일치하는 결과를 얻었습니다. 이러한 이득은 더 높은 커버리지(coverage)에서 비롯되며, 이는 배치당 더 강력한 학습 신호를 제공합니다.

Insights

QuasiMoTTo: Quasi-Monte Carlo 테스트 시간 스케일링 (Test-Time Scaling)

요약

핵심 포인트

댓글

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침

런타임 Helios-를 통해 의도가 명시적으로 강제되는 Prehook Gated Execution Policy Layer: Akashic은 각

Show HN: Meow – 네 번째이자 마지막 JavaScript 런타임 및 툴체인

더 많은 재배 면적과 재고량, 제품 약세에도 불구하고 상승세를 보이는 대두

USDA 보고서 이후 옥수수 강세론자들의 영향력 확대, 곡물 재고 데이터가 낙관적 전망 뒷받침