검색 증강 강화 미세 조정(RA-RFT)을 통한 유추 기반 추론 학습
요약
RA-RFT는 단순한 의미적 유사성을 넘어 유추(Analogy)를 통해 모델의 추론 능력을 강화하는 새로운 사후 학습 프레임워크입니다. 골드-관련성 증류와 강화 미세 조정을 결합하여 수학적 추론 등 복잡한 작업에서 기존 방식보다 뛰어난 성능을 입증했습니다.
핵심 포인트
- 의미적 유사성 대신 추론 이득에 기반한 검색 방식 제안
- 유추적 데모를 활용한 강화 미세 조정(RFT) 적용
- Qwen3 모델의 AIME 2025 벤치마크 성능 대폭 향상
- 추론 인식 검색이 보상 설계와 별개의 상호 보완적 축임을 확인
검색 증강 생성 (RAG)은 언어 모델을 외부 지식에 기반하도록 만드는 표준적인 메커니즘이 되었으나, 어휘적 또는 의미적 유사성에 기반한 전통적인 검색 방식은 복잡한 추론 작업에 적합하지 않습니다. 의미적으로 유사한 문제가 완전히 다른 해결 전략을 요구할 수 있는 반면, 표면적으로는 다른 문제가 동일한 기저의 추론 패턴을 공유할 수 있기 때문입니다. 우리는 언어 모델이 유추(Analogy)를 통해 추론하도록 가르치는 사후 학습(Post-training) 프레임워크인 검색 증강 강화 미세 조정 (Retrieval-Augmented Reinforcement Fine-Tuning, RA-RFT)을 제안합니다. RA-RFT는 골드-관련성 증류 (Gold-relevance distillation)를 사용하여 의미적 중첩이 아닌 예상되는 추론 이득에 따라 컨텍스트의 순위를 매기는 검색기(Retriever)를 학습시키며, 이후 검색된 유추적 데모(Analogous demonstrations)를 통해 강화 미세 조정 (Reinforcement fine-tuning) 방법으로 정책 모델(Policy model)을 미세 조정합니다. 이를 통해 모델은 검증 가능한 결과 보상 (Verifiable outcome rewards) 하에서 추론 흔적 (Reasoning traces)을 활용하는 법을 배웁니다. 우리는 나아가 검색된 컨텍스트의 다양성을 분석하여, 추론 인식 검색 (Reasoning-aware retrieval)이 개별 문제에 대해 뚜렷한 추론 스캐폴딩 (Reasoning scaffolds)을 제공하는 상호 보완적인 해결 전략을 드러낸다는 것을 발견했습니다. 도전적인 수학적 추론 벤치마크 전반에서 RA-RFT는 표준 강화 미세 조정 방법들을 일관되게 능가합니다. 예를 들어, Qwen3-1.7B와 Qwen3-4B 모델에 대해 GRPO 대비 AIME 2025 average@32 정확도를 각각 7.1포인트와 2.8포인트 향상시켰습니다. 이는 추론 인식 검색이 보상 설계(Reward design)나 학습 커리큘럼(Training curricula)의 발전과는 직교하는(Orthogonal), 상호 보완적인 개선 축임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기