arXiv논문2026. 06. 15. 07:51

FORT-Searcher: 깊은 검색 에이전트 훈련을 위한 단축 경로 저항성 검색 과제 합성

요약

깊은 검색 에이전트의 훈련을 위해 단축 경로(shortcut)를 방지하는 새로운 데이터 합성 프레임워크인 FORT를 제안합니다. FORT는 구조적 복잡성 대신 실제 검색 난이도를 보장하는 4가지 위험 요소를 제어하여 고품질의 훈련 데이터를 생성합니다. 이를 통해 훈련된 FORT-Searcher는 까다로운 벤치마크에서 최고 수준의 성능을 기록했습니다.

핵심 포인트

단축 경로 저항성 확보를 위한 새로운 데이터 합성 프레임워크 FORT 제안
증거 공동 커버리지 등 4가지 주요 단축 경로 위험 식별 및 제어
기존 데이터셋 대비 더 긴 검색 과정과 높은 난이도의 데이터 구축 가능
SFT만으로 훈련된 FORT-Searcher가 오픈 소스 검색 에이전트 중 최고 성능 달성

깊은 검색 에이전트를 훈련하려면, 충분한 증거를 통해 검색할 때까지 답변이 이용 불가능한 검증 가능한 질문이 필요합니다. 기존의 합성 방법들은 그래프 구조를 풍부하게 함으로써 명백한 난이도를 높이는 경우가 많지만, 구조적 복잡성만으로는 실제적인 검색 난이도를 보장하지 못합니다. 즉, 의도된 검색 과정이 더 저렴한 식별 경로(identifying route)를 통해 붕괴될 수 있습니다. 우리는 이 격차를 단축 경로 인식 난이도 프레임워크(shortcut-aware difficulty framework)로 공식화하고 네 가지 실행 가능한 단축 경로 위험을 식별했습니다: 증거 공동 커버리지(evidence co-coverage), 단일 단서 선택성(single-clue selectivity), 노출된 상수(exposed constants), 그리고 사전 지식 결속(prior-knowledge binding). 이러한 위험들의 실제 효과를 진단하기 위해, 우리는 해결 비용(solving cost), 답변 도달 시간(answer hit time), 그리고 사전 단축 경로율(prior-shortcut rate)을 포함하는 궤적 시그니처(trajectory signatures)를 사용합니다. 이 프레임워크에 의해 안내받아, 우리는 FORT, 즉 단축 경로 저항성 훈련 데이터 합성 프레임워크(Framework of Shortcut-Resistant Training-Data Synthesis)를 소개합니다. FORT는 개체 선택, 증거 그래프 구성, 질문 공식화, 그리고 적대적 정제(adversarial refinement) 전반에 걸쳐 단축 경로 위험을 제어함으로써 단축 경로 저항성 훈련 데이터를 구축합니다. 실험 결과들은 FORT가 기존의 오픈 소스 깊은 검색 데이터셋보다 더 긴 사전 답변 검색과 더 적은 단축 경로 패턴을 유도한다는 것을 보여줍니다. 이렇게 얻어진 궤적들을 사용하여, 우리는 지도 미세 조정(supervised fine-tuning, SFT)만으로 FORT-Searcher를 훈련했으며, 이는 까다로운 깊은 검색 벤치마크에서 비교 가능한 크기의 오픈 소스 검색 에이전트들 중 최고의 전반적인 성능을 달성했습니다. 관련 자료는 https://github.com/RUCAIBox/FORT-Searcher에서 이용 가능할 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

FORT-Searcher: 깊은 검색 에이전트 훈련을 위한 단축 경로 저항성 검색 과제 합성

요약

핵심 포인트

댓글