「HARR」: RAG의 Retriever를 강화학습(RL)으로 육성하기!

서론

루미나이(Luminaire) R&D 팀의 미야와키 쇼고(Shogo Miyawaki)입니다.

현재는 멀티모달 AI 연구를 수행하는 대학원생으로서,

생성형 AI 및 AI 에이전트 기술을 실천적으로 탐구하고 있습니다.

RAG 시스템을 구축 및 운용하다 보면, 어떤 「불편한 진실」에 직면하게 됩니다.

그것은 바로 **「Retriever(검색기)가 높은 점수로 가져온 문서가 반드시 LLM에게 좋은 힌트가 된다고 할 수는 없다」**는 것입니다.

기존의 Retriever는 「쿼리와 문서의 유사도」를 최대화하도록 훈련되지만, RAG의 최종 목적은 「LLM이 좋은 답변을 하는 것」입니다. 여기에는 명확한 목적 함수의 불일치가 존재합니다.

이 문제를 해결하기 위해, 이번에 소개하는 논문의 기법인 **HARR (History-Aware Reinforced Retriever)**는 Retriever 자체를 LLM의 최종 답변 점수(F1 등)를 보상으로 하여 강화학습(RL)시키는 매우 합리적인 접근 방식을 취하고 있습니다.

이 기사에서는 다음 내용을 배웁니다.

이론: 검색을 「결정적인 Top-k」에서 「확률적인 샘플링」으로 바꾸고, 강화학습(RL)으로 최적화하는 메커니즘 -
구현: PyTorch를 사용한 HARR의 완전한 학습 루프 (GRPO + Plackett-Luce Sampling) -
고찰: 왜 이것이 기존의 파인튜닝(SFT)보다 우수한지, 현장 관점에서의 분석

결론

HARR은 LLM을 재학습시키지 않고도, Retriever를 「답변에 기여하는 문서를 찾는 에이전트」로 진화시키는 저비용 고효율의 강력한 수법입니다.

개요

1. 왜 이 주제를 선택했는가

최근 DeepSeek-R1과 같은 「추론 모델」이 주목받고 있지만, RAG에서의 「검색」 또한 추론의 일종으로 볼 수 있습니다.

기존의 RAG 개선책은 LLM 자체의 학습이나 복잡한 리랭킹(Re-ranking)에 치우치는 경향이 있었습니다. 반면 HARR은 추론 시의 오버헤드(Overhead) 없이 Retriever의 성능을 끌어올린다는 점이 매우 실용적이며, 엔지니어로서 「시도해 보지 않을 수 없다」고 느꼈기 때문입니다.

2. 논문 조사: HARR (History-Aware Reinforced Retriever)

📘 Paper: Reinforcement Fine-Tuning for History-Aware Dense Retriever in RAG

arXiv: 2602.03645v1 (Feb 2026) -
저자: Yicheng Zhang, Zhen Qin, et al. -
개요: 멀티홉(Multi-hop) RAG에서 Retriever를 강화학습(GRPO)으로 최적화하는 프레임워크. 검색을 MDP(마르코프 결정 과정)로 간주하고, 이력을 고려한 상태(History-Aware State)를 사용함으로써 기존의 SFT 기반 Retriever를 일관되게 상회하는 정밀도를 달성.

🕵️ 분석

지표	평가	코멘트
신규성 (Novelty)	★★★★☆	검색 행동을 Plackett-Luce 분포에 의한 샘플링으로 정의하고, RL로 직접 최적화하는 정식화가 뛰어남.
실용성 (Practicality)	★★★★★	추론 시에는 일반적인 Dense Retrieval과 동일. 추가 모듈이 필요 없어 레이턴시(Latency)에 악영향이 없음.
재현성 (Reproducibility)	★★★★☆	알고리즘은 GRPO 기반이며, 기존의 RL 라이브러리나 PyTorch로 충분히 재현 가능.
기술적 깊이 (Technical Depth)	★★★★★	멀티홉 특유의 「상태의 모호함(State Aliasing)」을 이론적으로 지적하고 해결책을 제시함.
타당성 (Scientific Rigor)	★★★★☆	HotpotQA 등의 벤치마크에서 Frozen/SFT 베이스라인에 대해 유의미한 개선을 확인.

Reviewer’s Comment:

RAG 컴포넌트 최적화에 있어, 「LLM을 고정하고 Retriever만을 RL로 단련하는」 접근 방식은 비용 대비 효과가 매우 높습니다. 특히 멀티홉 추론에서의 「같은 쿼리라도 문맥에 따라 정답이 다르다」는 문제를 이력(History)을 상태(State)에 포함함으로써 해결한 점은 이론과 실용의 균형이 잘 잡혀 있습니다.

3. 이론 해설: HARR의 메커니즘

HARR의 접근 방식은 크게 두 가지 "발명"에 의해 지탱됩니다.

3.1 결정론적 검색에서 "확률적 샘플링"으로

통상적인 검색 (Top-k)은 미분 불가능하며, RL (강화학습)에 필요한 "탐색 (Exploration)"을 수행하지 않습니다.

HARR에서는 Plackett-Luce 모델을 사용하여, 검색을 확률 분포로부터의 샘플링 (Sampling)으로 간주합니다.

이를 통해 Retriever (검색기)는 일부러 점수가 조금 낮은 문서도 가끔 선택하게 됩니다. 이것이 "탐색"이 되며, 만약 그 문서가 정답으로 이어진다면 해당 선택이 강화됩니다.

3.2 상태의 모호함 (State Aliasing) 해소

멀티홉 QA (Multi-hop QA)에서는 추론 단계가 진행되어도 유사한 쿼리 (예: "그의 생년월일은?")가 생성될 수 있습니다. 하지만 직전의 문맥에 따라 "누구의" 생년월일이 필요한지는 달라집니다.

이를 해결하기 위해 HARR에서는 **검색 이력 (Search History)**을 활용합니다.

3.3 GRPO를 통한 최적화

보상 (Reward)은 LLM이 최종적으로 생성한 답변의 F1 스코어입니다.

이 보상을 최대화하기 위해 **GRPO (Group Relative Policy Optimization)**를 사용합니다. 동일한 쿼리에 대해 여러 검색·답변 패턴 (Group)을 시도하고, 그중에서 "상대적으로 좋았던 검색 행동"을 강화합니다.

4. 구현 및 검증

이론을 검증하기 위해 HARR의 학습 루프를 PyTorch로 구현했습니다.

여기서는 바로 실행해 볼 수 있도록 LLM과 데이터셋 부분을 Mock (모의 클래스)으로 대체하였지만, 로직은 논문 그대로입니다.

4.1 구현 코드

import torch
import torch.nn as nn
import torch.nn.functional as F
...

4.2 실행 결과 및 분석

다음은 위 코드의 실제 실행 로그입니다.

🚀 HARR Training Demo Started...
🎯 Objective: Query에 대해 정답인 'Document #0'을 Retrieval 하도록 함
----------------------------------------
...

📊 결과 해석:

초기 단계 (Step 10-20): Success Rate (성공률)은 50% 정도. Retriever는 아직 정답을 알지 못해 무작위 탐색을 반복하고 있습니다.
수렴 단계 (Step 30-40): 극적으로 개선되어, 88%의 확률로 정답 문서를 획득하고 있습니다. 이는 높은 보상 (Avg Reward 0.83)을 얻은 궤적이 강화되어, Retriever가 "이 쿼리에는 이 문서다"라고 확신을 갖게 되었음을 나타냅니다.
변동 (Step 50): 마지막에 수치가 변동하고 있으나, 이는 강화학습 특유의 분산이나 탐색 요소에 의한 것입니다.

5. 저자의 고찰: 검색에서 "탐색"으로의 패러다임 시프트

🧠 1. "검색 (Retrieval)"의 정의가 바뀐다

기존에 검색이란 "쿼리와 의미적으로 가장 가까운 것을 뽑아내는 작업"이었습니다. 하지만 HARR에서 검색은 LLM이 문제를 풀기 위한 최적의 힌트를 탐색하는 작업으로 재정의됩니다.

예를 들어, 멀티홉 QA에서 언뜻 쿼리와 관계없어 보이는 문서 (예: 인명 사전)가 다음 단계에서 필수적이 될 수 있습니다. 지도 학습 (SFT)에서는 인간이 이를 "정답 데이터"로 준비하지 않는 한 학습되지 않지만, RL (HARR)이라면 "이것을 뽑았더니 최종적으로 정답을 맞혔다"라는 결과론으로부터 역산하여, 미지의 "가교 문서 (Bridge Document)"를 발견할 가능성이 있습니다.

🛠️ 2. "Black-Box LLM" 시대의 생존 전략으로서

GPT나 Claude와 같은 폐쇄형 고성능 LLM을 사용하는 경우, 우리는 모델 내부를 건드릴 수 없습니다. 즉, LLM 자체를 RAG 용도로 파인튜닝 (Fine-tuning)하는 것은 불가능합니다.

하지만 HARR의 접근 방식이라면 LLM은 건드리지 않고, 거기서 얻어지는 보상 (답변 스코어)만 있으면 작동합니다. 이는 API를 통해서만 이용할 수 있는 최강의 모델을 백엔드로 두면서도, 시스템 전체의 정밀도를 향상시키기 위한 유일하면서도 강력한 "지름길"이 될 수 있습니다.

⚖️ 3. 비용과 정밀도의 트레이드오프 (Trade-off) 파괴

"RAG의 정밀도를 높이고 싶다"고 할 때, 지금까지는 다음 두 가지 선택지뿐이었습니다.

프롬프트 엔지니어링 (Prompt Engineering): 저비용 · 효과 한정적
LLM 파인튜닝 (Fine-tuning): 고비용 · 운영 난이도 높음

HARR은 이 중간에 「Retriever의 강화학습 (RL)」이라는 제3의 선택지를 제시합니다. Embedding 모델은 LLM에 비해 크기가 압도적으로 작으며 (수억 개의 파라미터), 학습 비용도 극히 적습니다. 그러면서도 추론 시에는 일반적인 검색과 동일한 계산량으로 처리되므로, 레이턴시 (Latency)도 악화되지 않습니다.

엔지니어링 관점에서도 "추론 시 비용 제로로 정밀도를 끌어올릴 수 있는" **기법은 도입하지 않을 이유가 없을 정도로 매력적입니다.

6. 요약

패러다임 시프트 (Paradigm Shift): 검색을 「유사도 매칭 (Similarity Matching)」에서 「강화학습을 통한 탐색」으로 진화시킨다.
History-Aware: 이력을 고려함으로써, 복잡한 멀티홉 추론 (Multi-hop Reasoning) 과정에서의 "길을 잃는 현상"을 방지한다.
현장 친화적: 추론 비용 증가 제로 · LLM 학습 불필요로 도입 가능하다.

이번 데모 코드로 보여드린 것처럼, Retriever의 RL화는 결코 마법이 아니라 몇 줄의 코드로 구현 가능한 현실적인 기술입니다.

"RAG의 정밀도가 한계에 부딪혔다..."라고 고민하고 있다면, 프롬프트를 수정하는 손을 잠시 멈추고 Retriever 그 자체를 육성해 보는 것은 어떨까요?

집필: 미야와키 쇼고 (Lluminai Inc. / 루미나이)

【현재 채용을 강화하고 있습니다!】

AI 엔지니어
PM/PdM
전략 투자 컨설턴트

▼대표와의 캐주얼 면담 URL