본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 02. 10:14

FineVerify: 에이전트 기반 검색을 위한 세밀한 자기 검증을 통한 테스트 시간 연산(Test-Time Compute) 확장

요약

FineVerify는 에이전트 기반 검색의 성능을 높이기 위해 테스트 시간 연산을 확장하는 세밀한 자기 검증 프레임워크입니다. 질문을 검증 가능한 하위 질문으로 분해하고 각 단계별로 점수를 매겨 최적의 후보를 선택함으로써 모델의 정확도를 크게 향상시킵니다.

핵심 포인트

  • 질문을 하위 질문으로 분해하여 로컬 판단 기반의 검증 수행
  • GPT-5-mini 및 Gemini-3-flash의 정확도 대폭 향상
  • 해석 가능한 검증 추적을 통해 벤치마크 오류 감사 가능
  • 적은 샘플링만으로도 프런티어 모델 수준의 성능 도달

에이전트 기반 검색(Agentic search)은 언어 모델 에이전트가 많은 소스를 탐색하고 복잡한 정보 탐색 질문에 답할 것을 요구합니다. 테스트 시간 연산(Test-time compute)을 확장하는 것은 이러한 에이전트를 개선하는 유망한 방법이지만, 정답이 희소한 경우가 많고 점수 기반 선택이 모델의 보정(Calibration)에 의존하기 때문에 현재의 접근 방식은 실패할 수 있습니다. 우리는 각 질문을 검증 가능한 하위 질문(Sub-questions)으로 분해하고, 샘플링된 후보들을 각 하위 질문에 대해 검증하며, 가장 높은 합산 점수를 가진 후보를 선택하는 세밀한 자기 검증(Fine-grained self-verification) 프레임워크인 FineVerify를 제안합니다. 이러한 체크별 구조는 선택 과정을 더 단순한 로컬 판단(Local judgments)으로 전환하며, 동일한 명시적 기준 하에 점수를 생성합니다. 4개의 에이전트 기반 검색 벤치마크와 2개의 모델에 대해 FineVerify는 표준 확장 베이스라인(Scaling baselines)을 지속적으로 능가합니다. 단 4개의 샘플링된 궤적(Trajectories)만으로도, FineVerify는 GPT-5-mini의 정확도를 8.2포인트, Gemini-3-flash의 정확도를 평균 5.6% 향상시킵니다. 12개의 샘플을 사용할 경우, FineVerify는 GPT-5-mini가 BrowseComp-Plus에서 프런티어 모델인 GPT-5를 능가할 수 있게 합니다. 정확도를 넘어, FineVerify는 벤치마크 오류를 감사하는 데 도움이 되는 해석 가능한 검증 추적(Interpretable verification traces)을 생성하며, 이는 에이전트 기반 검색 시스템을 점검하기 위한 더 넓은 응용 가능성을 시사합니다. 코드와 데이터는 https://github.com/XuZhao0/fineverify 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0