Search-E1: 자기 증류(Self-Distillation)를 통한 검색 증강 추론(Search-Augmented Reasoning)의
요약
Search-E1은 복잡한 외부 모듈 없이 순수 GRPO만을 활용하여 검색 증강 추론 에이전트를 스스로 개선하는 자기 증류(Self-Distillation) 방법론을 제안합니다. 토큰 수준의 KL 목적 함수를 통해 정책의 추론 분포를 최적화하며, 기존 오픈 소스 베이스라인을 능가하는 성능을 입증했습니다.
핵심 포인트
- 복잡한 외부 감독 없이 GRPO 기반의 자기 진화 구현
- 토큰 수준의 순방향 KL 목적 함수를 통한 효율적 정렬
- Qwen2.5-3B 모델로 7개 QA 벤치마크에서 우수한 성능 달성
- 학습 파이프라인의 비대화를 방지하는 단순하고 강력한 구조
사후 학습(Post-training)은 언어 모델을 유능한 검색 증강 추론(Search-augmented reasoning) 에이전트로 변모시키는 지배적인 방법론이 되었습니다. 최근의 일련의 연구들은 이 표준 파이프라인 위에 정교한 메커니즘을 추가함으로써 성능을 더욱 끌어올리고 있습니다. 이러한 증강 기법들은 더 강력한 외부 시스템으로부터 외부 감독(External supervision)을 가져오거나, 프로세스 보상 모델(Process reward models) 또는 회고적 비판가(Retrospective critics)와 같은 보조 모듈을 부착하고, 트리 탐색(Tree search) 또는 다단계 커리큘럼(Multi-stage curricula)을 통해 롤아웃(Rollout) 자체를 재구성하거나, 수작업으로 설계된 보너스 및 페널티로 보상(Reward)을 형성합니다. 각각의 추가 요소는 측정 가능한 이득을 제공하지만, 동시에 학습 파이프라인을 비대하게 만들고 해당 방법론을 항상 가용하지 않을 수 있는 자원이나 설계에 종속시킵니다.
우리는 한 걸음 물러나 이러한 메커니즘들이 실제로 필요한지 질문하며, 오프라인 자기 증류(Offline Self-Distillation, OFSD)가 교차된 순수 바닐라 GRPO(Vanilla GRPO)만을 통해 검색 증강 에이전트가 스스로 개선될 수 있도록 하는 자기 진화(Self-evolution) 방법론인 Search-E1을 제안합니다. 각 GRPO 라운드 이후, 정책(Policy)은 자신의 학습 질문에 대해 스스로 롤아웃을 수행합니다. 그 후 토큰 수준의 순방향 KL 목적 함수(Token-level forward KL objective)를 통해, 정책의 추론 시간 분포(Inference-time distribution)를 더 효율적인 형제 궤적(Sibling trajectory)을 노출하는 특권적 문맥(Privileged context) 하에서의 자체 분포와 정렬합니다. 이러한 단순함에도 불구하고, 이 절차는 자연스럽게 단계별로 조밀한 감독(Dense per-step supervision)을 제공합니다. 7개의 QA 벤치마크에서 Search-E1은 Qwen2.5-3B를 사용하여 평균 $0.440$의 EM(Exact Match)을 달성하였으며, 두 규모 모두에서 모든 오픈 소스 베이스라인을 능가했습니다. 코드와 완전한 버전은 곧 공개될 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기