arXiv논문2026. 04. 29. 20:10

하나의 리파이너로 모두 열기: 강화학습 기반 쿼리 정제를 통한 추론 시간적 추론 소환

요약

본 논문은 대형 언어 모델(LLMs)이 모호한 인간의 질문과 구조화된 논리 사이의 불일치로 인해 잠재력을 충분히 발휘하지 못하는 문제를 해결하기 위해 ReQueR이라는 모듈러 프레임워크를 제안합니다. ReQueR은 강화학습(RL)을 사용하여 전용 리파이너 정책을 학습시켜 원시 쿼리를 명시적인 논리적 분해로 재작성하며, 이를 통해 동결된 LLMs의 추론 능력을 향상시킵니다. 특히, 이 프레임워크는 소수의 모델에서 학습된 단일 리파이너가 다양한 미지의 모델에 효과적으로 적용될 수 있는 '원-투-매니(one-to-many)' 패러다임을 제시하여 범용성을 크게 높였습니다.

핵심 포인트

ReQueR은 강화학습을 활용하여 원시 쿼리를 논리적 분해로 재작성하는 리파이너 정책을 학습합니다.
Adaptive Solver Hierarchy라는 커리큘럼 메커니즘을 도입하여 환경 난이도를 동적으로 조절함으로써 학습 안정성을 확보했습니다.
제안된 프레임워크는 다양한 아키텍처와 벤치마크에서 일관되고 높은 성능 향상을 입증했습니다.
가장 중요한 기여는 소수의 모델로 학습된 단일 리파이너가 다양한 미지의 LLM에 적용 가능한 '원-투-매니' 추론 시간적 정렬 패러다임을 제공한다는 점입니다.

대형 언어 모델 (LLMs) 은 모호한 인간의 질문과 기계 활성화에 필요한 구조화된 논리 사이의 분포 불일치로 인해 잠재적인 추론 능력을 활용하지 못하는 경우가 많습니다. 기존 정렬 방법은 각 모델을 개별적으로 미세 조정함으로써 prohibitive $O(N)$ 비용이 발생하거나, 쿼리 수준의 구조적 복잡성을 해결하지 못하는 정적 프롬프트에 의존합니다. 본 논문에서는 추론 소환을 추론 시간적 정렬 (inference-time alignment) 작업으로 간주하는 모듈러 프레임워크인 ReQueR ( extbf{Re}inforcement extbf{Que}ry extbf{R}efinement) 를 제안합니다. 우리는 강화학습 (RL) 을 통해 전용 리파이너 (Refiner) 정책을 학습시켜 원시 쿼리를 명시적인 논리적 분해로 재작성하며, 동결된 LLMs 를 환경으로 취급합니다. 교육 심리학의 고전적 개념인 근접 발달 영역 (Zone of Proximal Development) 에 기반하여, 환경의 난이도를 리파이너의 진화하는 역량과 동적으로 정렬함으로써 학습을 안정화하는 커리큘럼 메커니즘인 Adaptive Solver Hierarchy 를 도입합니다. ReQueR 은 다양한 아키텍처와 벤치마크에서 일관된 절대적 향상 (absolute gains) 이 1.7
aise0.3ex\hbox{--}7.2
aise0.3ex\hbox{ extperthousand} 로 나타나며, 강력한 베이스라인 대비 평균 2.1
aise0.3ex\hbox{ extperthousand} 더 높은 성능을 보입니다. 무엇보다도 ReQueR 은 소수의 모델에서 학습된 단일 리파이너가 다양한 미지의 모델의 추론을 효과적으로 열어줄 수 있는 일대다 (one-to-many) 추론 시간적 추론 소환에 대한 유망한 패러다임을 제공합니다. 코드는 https://github.com/newera-xiao/ReQueR 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

하나의 리파이너로 모두 열기: 강화학습 기반 쿼리 정제를 통한 추론 시간적 추론 소환

요약

핵심 포인트

댓글