OpenDeepThink: Bradley-Terry 집합을 통한 병렬 추론 (Parallel Reasoning via Bradley-Terry
요약
OpenDeepThink는 LLM 추론 성능 향상을 위해 쌍체 Bradley-Terry 비교를 활용하는 개체군 기반 테스트 시간 연산 프레임워크입니다. 이 방법은 매 세대마다 무작위 후보 쌍을 판정하고, 이를 집계하여 전역 순위를 생성합니다. 상위 4분의 3의 후보는 자연어 비판을 통해 변이되고 하위 4분의 1은 폐기되는 과정을 거칩니다. OpenDeepThink를 적용한 결과, Gemini 3.1 Pro 모델의 Codeforces Elo 점수가 유효하게 +405점 상승하는 성과를 보였습니다. 이 프레임워크는 재학습 없이 다양한 모델에 전이 가능하며, 객관적으로 검증 가능한 도메인에서 특히 효과적임을 입증했습니다.
핵심 포인트
- OpenDeepThink는 LLM 추론의 병목 현상(selection bottleneck)을 해결하기 위해 쌍체 Bradley-Terry 비교를 사용합니다.
- 프레임워크는 매 세대마다 후보 쌍을 판정하고, 이를 집계하여 전역 순위를 생성하는 개체군 기반 방식을 채택합니다.
- 상위 4분의 3의 후보는 자연어 비판(natural-language critiques)으로 변이되고 하위 4분의 1은 폐기됩니다.
- Gemini 3.1 Pro 모델에 적용하여 Codeforces Elo 점수를 +405점 향상시키는 성과를 달성했습니다.
- 재학습 없이 다양한 모델에 전이 가능하며, 객관적 도메인에서 성능 이득이 두드러집니다.
테스트 시간 연산 스케일링 (Test-time compute scaling)은 LLM 추론을 향상시키기 위한 주요 축입니다. 기존 방법들은 주로 단일 추론 경로 (reasoning trace)를 확장함으로써 깊이 (depth)를 확장합니다. 여러 후보를 병렬로 샘플링하여 너비 (breadth)를 확장하는 것은 간단하지만, 선택 병목 현상 (selection bottleneck)을 유발합니다. 즉, 점수 기반 (pointwise) LLM 판정은 노이즈가 많고 편향되어 있기 때문에, 정답 검증기 (ground-truth verifier) 없이 최적의 후보를 선택하는 것이 어렵습니다. 이를 해결하기 위해, 우리는 쌍체 Bradley-Terry 비교 (pairwise Bradley-Terry comparison)를 통해 선택하는 개체군 기반 테스트 시간 연산 프레임워크인 OpenDeepThink를 소개합니다. 각 세대 (generation)마다 LLM은 무작위 후보 쌍을 판정하고, Bradley-Terry를 통해 투표를 집합 (aggregate)하여 전역 순위 (global ranking)를 생성합니다. 상위 순위 후보들은 보존되며, 상위 4분의 3은 비교 과정에서 생성된 자연어 비판 (natural-language critiques)을 사용하여 변이 (mutated)됩니다. 하위 4분의 1은 폐기됩니다. OpenDeepThink는 8회의 연속적인 LLM 호출 라운드(실제 시간 약 27분) 동안 Gemini 3.1 Pro의 유효 Codeforces Elo를 +405점 높였습니다. 이 파이프라인은 재학습 (retuning) 없이 더 약한 모델과 더 강한 모델 모두에 전이 가능하며, 다중 도메인 HLE 벤치마크에서 이득은 객관적으로 검증 가능한 도메인에 집중되는 반면 주관적인 도메인에서는 반대로 나타납니다. 우리는 International Grandmaster의 주석이 달리고 공식 판정에 대해 99%의 로컬 평가 일치율을 보이는 73개의 전문가 평가 Codeforces 문제 세트인 CF-73을 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기