본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 06. 12:48

OpenSeeker-v2: 정보적이고 고난도 트래젝토리를 통해 검색 에이전트의 한계 돌파

요약

OpenSeeker-v2는 정보적이고 고난도 트래젝토리를 활용한 데이터 합성 수정만으로, 기존에 자원 집약적인 CPT+SFT+RL 파이프라인을 거친 모델들을 능가하는 최상위 검색 에이전트 성능을 달성했습니다. 이 연구는 지식 그래프 및 도구 세트를 확장하고 엄격한 저 단계 필터링을 도입하여 강력한 기준선을 구축했으며, 10.6k 데이터 포인트만으로도 여러 벤치마크에서 최고 성능을 기록했습니다. 특히 OpenSeeker-v2는 순수 학술 팀이 SFT만을 사용하여 개발된 모델 중 최초로 이러한 성과를 보여주었으며, 그 가중치를 오픈소스로 공개하여 연구 커뮤니티의 접근성을 높이는 데 기여할 것입니다.

핵심 포인트

  • OpenSeeker-v2는 자원 집약적인 CPT+SFT+RL 파이프라인 없이도 강력한 검색 에이전트 성능을 입증했습니다.
  • 지식 그래프 확장, 도구 세트 확대, 저 단계 필터링이라는 간단한 데이터 합성 수정만으로 높은 기준선을 확립할 수 있었습니다.
  • OpenSeeker-v2는 10.6k의 적은 데이터 포인트로도 여러 주요 검색 에이전트 벤치마크에서 최고 성능을 달성했습니다.
  • 본 모델은 순수 학술 팀에 의해 SFT만을 사용하여 개발된 최초의 최상위 성능 검색 에이전트입니다.
  • 모델 가중치를 오픈소스로 공개하여 연구 커뮤니티의 접근성을 높였습니다.

심층 검색 능력은 프론티어 (최신) 대형 언어 모델 (LLM) 에이전트를 위한 필수 역량이 되었으나, 그 개발은 여전히 산업 거대 기업에 의해 주도되고 있다. 일반적인 산업적 접근법은 사전 학습 (pre-training), 지속적 사전 학습 (Continual Pre-Training, CPT), 감독 강화 학습 (Supervised Fine-Tuning, SFT), 그리고 강화 학습 (Reinforcement Learning, RL) 을 포함하는 매우 자원 집약적인 파이프라인을 따른다. 이 보고서에서는 정보적이고 고난도 트래젝토리를 공급받았을 때 단순한 SFT 접근법이 프론티어 검색 에이전트 훈련에 놀랍도록 강력한 성능을 발휘할 수 있음을 보여준다. 지식 그래프 크기를 확대하여 더 풍부한 탐색을 제공하고, 도구 세트 크기를 확대하여 더 넓은 기능을 제공하며, 엄격한 저 단계 (low-step) 필터링을 도입한 세 가지 간단한 데이터 합성 수정을 통해 우리는 더 강력한 기준선을 확립했다. 10.6k 데이터 포인트로만 훈련된 OpenSeeker-v2 는 4 개의 벤치마크 (30B 사이즈의 에이전트와 ReAct 패러다임) 에서 최상위 성능을 달성했다: BrowseComp 에서 46.0%, BrowseComp-ZH 에서 58.1%, Humanity's Last Exam 에서 34.6%, xbench 에서 78.0% 를 기록하여, 무거운 CPT+SFT+RL 파이프라인으로 훈련된 Tongyi DeepResearch (각각 43.4%, 46.7%, 32.9%, 75.0%) 를 능가했다. 특히 OpenSeeker-v2 는 순수 학술 팀에 의해 SFT 만을 사용하여 개발된 해당 모델 규모와 패러다임 내 최초의 최상위 성능 검색 에이전트이다. 우리는 OpenSeeker-v2 모델 가중치를 오픈소스로 공개하고 단순하지만 효과적인 발견을 공유하여 프론티어 검색 에이전트 연구의 커뮤니티 접근성을 높일 것을 기대한다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0