arXiv논문2026. 05. 06. 12:48

OpenSeeker-v2: 정보적이고 고난도 트래젝토리를 통해 검색 에이전트의 한계 돌파

요약

OpenSeeker-v2는 정보적이고 고난도 트래젝토리를 활용한 데이터 합성 수정만으로, 기존에 자원 집약적인 CPT+SFT+RL 파이프라인을 거친 모델들을 능가하는 최상위 검색 에이전트 성능을 달성했습니다. 이 연구는 지식 그래프 및 도구 세트를 확장하고 엄격한 저 단계 필터링을 도입하여 강력한 기준선을 구축했으며, 10.6k 데이터 포인트만으로도 여러 벤치마크에서 최고 성능을 기록했습니다. 특히 OpenSeeker-v2는 순수 학술 팀이 SFT만을 사용하여 개발된 모델 중 최초로 이러한 성과를 보여주었으며, 그 가중치를 오픈소스로 공개하여 연구 커뮤니티의 접근성을 높이는 데 기여할 것입니다.

핵심 포인트

OpenSeeker-v2는 자원 집약적인 CPT+SFT+RL 파이프라인 없이도 강력한 검색 에이전트 성능을 입증했습니다.
지식 그래프 확장, 도구 세트 확대, 저 단계 필터링이라는 간단한 데이터 합성 수정만으로 높은 기준선을 확립할 수 있었습니다.
OpenSeeker-v2는 10.6k의 적은 데이터 포인트로도 여러 주요 검색 에이전트 벤치마크에서 최고 성능을 달성했습니다.
본 모델은 순수 학술 팀에 의해 SFT만을 사용하여 개발된 최초의 최상위 성능 검색 에이전트입니다.
모델 가중치를 오픈소스로 공개하여 연구 커뮤니티의 접근성을 높였습니다.

심층 검색 능력은 프론티어 (최신) 대형 언어 모델 (LLM) 에이전트를 위한 필수 역량이 되었으나, 그 개발은 여전히 산업 거대 기업에 의해 주도되고 있다. 일반적인 산업적 접근법은 사전 학습 (pre-training), 지속적 사전 학습 (Continual Pre-Training, CPT), 감독 강화 학습 (Supervised Fine-Tuning, SFT), 그리고 강화 학습 (Reinforcement Learning, RL) 을 포함하는 매우 자원 집약적인 파이프라인을 따른다. 이 보고서에서는 정보적이고 고난도 트래젝토리를 공급받았을 때 단순한 SFT 접근법이 프론티어 검색 에이전트 훈련에 놀랍도록 강력한 성능을 발휘할 수 있음을 보여준다. 지식 그래프 크기를 확대하여 더 풍부한 탐색을 제공하고, 도구 세트 크기를 확대하여 더 넓은 기능을 제공하며, 엄격한 저 단계 (low-step) 필터링을 도입한 세 가지 간단한 데이터 합성 수정을 통해 우리는 더 강력한 기준선을 확립했다. 10.6k 데이터 포인트로만 훈련된 OpenSeeker-v2 는 4 개의 벤치마크 (30B 사이즈의 에이전트와 ReAct 패러다임) 에서 최상위 성능을 달성했다: BrowseComp 에서 46.0%, BrowseComp-ZH 에서 58.1%, Humanity's Last Exam 에서 34.6%, xbench 에서 78.0% 를 기록하여, 무거운 CPT+SFT+RL 파이프라인으로 훈련된 Tongyi DeepResearch (각각 43.4%, 46.7%, 32.9%, 75.0%) 를 능가했다. 특히 OpenSeeker-v2 는 순수 학술 팀에 의해 SFT 만을 사용하여 개발된 해당 모델 규모와 패러다임 내 최초의 최상위 성능 검색 에이전트이다. 우리는 OpenSeeker-v2 모델 가중치를 오픈소스로 공개하고 단순하지만 효과적인 발견을 공유하여 프론티어 검색 에이전트 연구의 커뮤니티 접근성을 높일 것을 기대한다.

AI 자동 생성 콘텐츠

원문 바로가기

OpenSeeker-v2: 정보적이고 고난도 트래젝토리를 통해 검색 에이전트의 한계 돌파

요약

핵심 포인트

댓글