arXiv논문2026. 06. 02. 12:23

Harness-1: 상태 외부화 하네스(State-Externalizing Harnesses)를 이용한 검색 에이전트용 강화학습 (RL)

요약

Harness-1은 검색 에이전트의 정책이 상태 관리 부담을 덜 수 있도록 '상태 외부화 하네스'를 도입한 20B 규모의 모델입니다. 환경 측 작업 메모리를 활용해 의미론적 결정에만 집중함으로써 검색 성능과 일반화 능력을 크게 향상시켰습니다.

핵심 포인트

상태 외부화 하네스를 통해 모델의 상태 관리 부담 완화
20B 규모의 검색 서브에이전트 Harness-1 제안
8개 벤치마크에서 기존 오픈 검색 모델 대비 높은 성능 달성
명시적 검색 상태를 통한 뛰어난 도메인 일반화 능력 입증

검색 에이전트 (Search agents)는 종종 확장되는 트랜스크립트 (transcripts) 상의 정책 (policies)으로 학습됩니다. 즉, 모델은 검색 방법을 결정하는 동시에 자신이 무엇을 보았는지, 어떤 증거가 유용한지, 어떤 제약 조건이 남아 있는지, 그리고 어떤 주장들이 실제로 확인되었는지를 기억해야 합니다. 우리는 이러한 공식화가 정책 내부에 너무 많은 일상적인 상태 관리 (state management)를 부여한다고 주장합니다. 즉, 강화학습 (RL)이 의미론적 검색 결정 (semantic search decisions)과 환경이 더 안정적으로 유지할 수 있는 복구 가능한 장부 기록 (bookkeeping) 업무를 동시에 최적화하도록 강요받게 됩니다. 우리는 상태 유지형 검색 하네스 (stateful search harness) 내부에서 강화학습 (RL)으로 학습된 20B 규모의 검색 에이전트 (retrieval subagent)인 Harness-1을 소개합니다. 이 하네스는 후보 풀 (candidate pool), 중요도 태그가 지정된 큐레이션 세트 (importance-tagged curated set), 압축된 증거 링크 (compact evidence links), 검증 기록 (verification records), 압축 및 중복 제거된 관찰값 (compressed and deduplicated observations), 그리고 예산 인지형 컨텍스트 렌더링 (budget-aware context rendering)을 포함한 환경 측 작업 메모리 (environment-side working memory)를 유지합니다. 정책은 무엇을 검색할지, 어떤 문서를 유지하거나 버릴지, 무엇을 검증할지, 그리고 언제 멈출지와 같은 의미론적 결정 (semantic decisions)만을 보유합니다. 웹, 금융, 특허 및 멀티홉 QA (multi-hop QA)를 아우르는 8개의 검색 벤치마크 전반에서 Harness-1은 평균 0.730의 큐레이션 재현율 (curated recall)을 달성하였으며, 이는 차순위로 강력한 오픈 검색 서브에이전트 (open search subagent)보다 +11.4포인트 높은 성능이며, 훨씬 더 큰 프론티어 모델 (frontier-model) 검색기들과도 경쟁할 만한 수준입니다. Harness-1의 성능 향상은 특히 홀드아웃 전이 벤치마크 (held-out transfer benchmarks)에서 강력하게 나타나며, 이는 명시적인 검색 상태 (explicit search state)에 대한 강화학습 (RL)이 훈련 도메인을 넘어 일반화될 수 있는 검색 동작을 생성할 수 있음을 시사합니다. 우리의 코드는 https://github.com/pat-jj/harness-1 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Harness-1: 상태 외부화 하네스(State-Externalizing Harnesses)를 이용한 검색 에이전트용 강화학습 (RL)

요약

핵심 포인트

댓글