arXiv논문2026. 06. 15. 04:58

검색 증강 강화 미세 조정(RA-RFT)을 통한 유추 기반 추론 학습

요약

RA-RFT는 단순한 의미적 유사성을 넘어 유추(Analogy)를 통해 모델의 추론 능력을 강화하는 새로운 사후 학습 프레임워크입니다. 골드-관련성 증류와 강화 미세 조정을 결합하여 수학적 추론 등 복잡한 작업에서 기존 방식보다 뛰어난 성능을 입증했습니다.

핵심 포인트

의미적 유사성 대신 추론 이득에 기반한 검색 방식 제안
유추적 데모를 활용한 강화 미세 조정(RFT) 적용
Qwen3 모델의 AIME 2025 벤치마크 성능 대폭 향상
추론 인식 검색이 보상 설계와 별개의 상호 보완적 축임을 확인

검색 증강 생성 (RAG)은 언어 모델을 외부 지식에 기반하도록 만드는 표준적인 메커니즘이 되었으나, 어휘적 또는 의미적 유사성에 기반한 전통적인 검색 방식은 복잡한 추론 작업에 적합하지 않습니다. 의미적으로 유사한 문제가 완전히 다른 해결 전략을 요구할 수 있는 반면, 표면적으로는 다른 문제가 동일한 기저의 추론 패턴을 공유할 수 있기 때문입니다. 우리는 언어 모델이 유추(Analogy)를 통해 추론하도록 가르치는 사후 학습(Post-training) 프레임워크인 검색 증강 강화 미세 조정 (Retrieval-Augmented Reinforcement Fine-Tuning, RA-RFT)을 제안합니다. RA-RFT는 골드-관련성 증류 (Gold-relevance distillation)를 사용하여 의미적 중첩이 아닌 예상되는 추론 이득에 따라 컨텍스트의 순위를 매기는 검색기(Retriever)를 학습시키며, 이후 검색된 유추적 데모(Analogous demonstrations)를 통해 강화 미세 조정 (Reinforcement fine-tuning) 방법으로 정책 모델(Policy model)을 미세 조정합니다. 이를 통해 모델은 검증 가능한 결과 보상 (Verifiable outcome rewards) 하에서 추론 흔적 (Reasoning traces)을 활용하는 법을 배웁니다. 우리는 나아가 검색된 컨텍스트의 다양성을 분석하여, 추론 인식 검색 (Reasoning-aware retrieval)이 개별 문제에 대해 뚜렷한 추론 스캐폴딩 (Reasoning scaffolds)을 제공하는 상호 보완적인 해결 전략을 드러낸다는 것을 발견했습니다. 도전적인 수학적 추론 벤치마크 전반에서 RA-RFT는 표준 강화 미세 조정 방법들을 일관되게 능가합니다. 예를 들어, Qwen3-1.7B와 Qwen3-4B 모델에 대해 GRPO 대비 AIME 2025 average@32 정확도를 각각 7.1포인트와 2.8포인트 향상시켰습니다. 이는 추론 인식 검색이 보상 설계(Reward design)나 학습 커리큘럼(Training curricula)의 발전과는 직교하는(Orthogonal), 상호 보완적인 개선 축임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

검색 증강 강화 미세 조정(RA-RFT)을 통한 유추 기반 추론 학습

요약

핵심 포인트

댓글