arXiv논문2026. 06. 02. 10:14

FineVerify: 에이전트 기반 검색을 위한 세밀한 자기 검증을 통한 테스트 시간 연산(Test-Time Compute) 확장

요약

FineVerify는 에이전트 기반 검색의 성능을 높이기 위해 테스트 시간 연산을 확장하는 세밀한 자기 검증 프레임워크입니다. 질문을 검증 가능한 하위 질문으로 분해하고 각 단계별로 점수를 매겨 최적의 후보를 선택함으로써 모델의 정확도를 크게 향상시킵니다.

핵심 포인트

질문을 하위 질문으로 분해하여 로컬 판단 기반의 검증 수행
GPT-5-mini 및 Gemini-3-flash의 정확도 대폭 향상
해석 가능한 검증 추적을 통해 벤치마크 오류 감사 가능
적은 샘플링만으로도 프런티어 모델 수준의 성능 도달

에이전트 기반 검색(Agentic search)은 언어 모델 에이전트가 많은 소스를 탐색하고 복잡한 정보 탐색 질문에 답할 것을 요구합니다. 테스트 시간 연산(Test-time compute)을 확장하는 것은 이러한 에이전트를 개선하는 유망한 방법이지만, 정답이 희소한 경우가 많고 점수 기반 선택이 모델의 보정(Calibration)에 의존하기 때문에 현재의 접근 방식은 실패할 수 있습니다. 우리는 각 질문을 검증 가능한 하위 질문(Sub-questions)으로 분해하고, 샘플링된 후보들을 각 하위 질문에 대해 검증하며, 가장 높은 합산 점수를 가진 후보를 선택하는 세밀한 자기 검증(Fine-grained self-verification) 프레임워크인 FineVerify를 제안합니다. 이러한 체크별 구조는 선택 과정을 더 단순한 로컬 판단(Local judgments)으로 전환하며, 동일한 명시적 기준 하에 점수를 생성합니다. 4개의 에이전트 기반 검색 벤치마크와 2개의 모델에 대해 FineVerify는 표준 확장 베이스라인(Scaling baselines)을 지속적으로 능가합니다. 단 4개의 샘플링된 궤적(Trajectories)만으로도, FineVerify는 GPT-5-mini의 정확도를 8.2포인트, Gemini-3-flash의 정확도를 평균 5.6% 향상시킵니다. 12개의 샘플을 사용할 경우, FineVerify는 GPT-5-mini가 BrowseComp-Plus에서 프런티어 모델인 GPT-5를 능가할 수 있게 합니다. 정확도를 넘어, FineVerify는 벤치마크 오류를 감사하는 데 도움이 되는 해석 가능한 검증 추적(Interpretable verification traces)을 생성하며, 이는 에이전트 기반 검색 시스템을 점검하기 위한 더 넓은 응용 가능성을 시사합니다. 코드와 데이터는 https://github.com/XuZhao0/fineverify 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

FineVerify: 에이전트 기반 검색을 위한 세밀한 자기 검증을 통한 테스트 시간 연산(Test-Time Compute) 확장

요약

핵심 포인트

댓글