arXiv논문2026. 05. 22. 11:19

Search-E1: 자기 증류(Self-Distillation)를 통한 검색 증강 추론(Search-Augmented Reasoning)의

요약

Search-E1은 복잡한 외부 모듈 없이 순수 GRPO만을 활용하여 검색 증강 추론 에이전트를 스스로 개선하는 자기 증류(Self-Distillation) 방법론을 제안합니다. 토큰 수준의 KL 목적 함수를 통해 정책의 추론 분포를 최적화하며, 기존 오픈 소스 베이스라인을 능가하는 성능을 입증했습니다.

핵심 포인트

복잡한 외부 감독 없이 GRPO 기반의 자기 진화 구현
토큰 수준의 순방향 KL 목적 함수를 통한 효율적 정렬
Qwen2.5-3B 모델로 7개 QA 벤치마크에서 우수한 성능 달성
학습 파이프라인의 비대화를 방지하는 단순하고 강력한 구조

사후 학습(Post-training)은 언어 모델을 유능한 검색 증강 추론(Search-augmented reasoning) 에이전트로 변모시키는 지배적인 방법론이 되었습니다. 최근의 일련의 연구들은 이 표준 파이프라인 위에 정교한 메커니즘을 추가함으로써 성능을 더욱 끌어올리고 있습니다. 이러한 증강 기법들은 더 강력한 외부 시스템으로부터 외부 감독(External supervision)을 가져오거나, 프로세스 보상 모델(Process reward models) 또는 회고적 비판가(Retrospective critics)와 같은 보조 모듈을 부착하고, 트리 탐색(Tree search) 또는 다단계 커리큘럼(Multi-stage curricula)을 통해 롤아웃(Rollout) 자체를 재구성하거나, 수작업으로 설계된 보너스 및 페널티로 보상(Reward)을 형성합니다. 각각의 추가 요소는 측정 가능한 이득을 제공하지만, 동시에 학습 파이프라인을 비대하게 만들고 해당 방법론을 항상 가용하지 않을 수 있는 자원이나 설계에 종속시킵니다.

우리는 한 걸음 물러나 이러한 메커니즘들이 실제로 필요한지 질문하며, 오프라인 자기 증류(Offline Self-Distillation, OFSD)가 교차된 순수 바닐라 GRPO(Vanilla GRPO)만을 통해 검색 증강 에이전트가 스스로 개선될 수 있도록 하는 자기 진화(Self-evolution) 방법론인 Search-E1을 제안합니다. 각 GRPO 라운드 이후, 정책(Policy)은 자신의 학습 질문에 대해 스스로 롤아웃을 수행합니다. 그 후 토큰 수준의 순방향 KL 목적 함수(Token-level forward KL objective)를 통해, 정책의 추론 시간 분포(Inference-time distribution)를 더 효율적인 형제 궤적(Sibling trajectory)을 노출하는 특권적 문맥(Privileged context) 하에서의 자체 분포와 정렬합니다. 이러한 단순함에도 불구하고, 이 절차는 자연스럽게 단계별로 조밀한 감독(Dense per-step supervision)을 제공합니다. 7개의 QA 벤치마크에서 Search-E1은 Qwen2.5-3B를 사용하여 평균 $0.440$의 EM(Exact Match)을 달성하였으며, 두 규모 모두에서 모든 오픈 소스 베이스라인을 능가했습니다. 코드와 완전한 버전은 곧 공개될 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

Search-E1: 자기 증류(Self-Distillation)를 통한 검색 증강 추론(Search-Augmented Reasoning)의

요약

핵심 포인트

댓글