arXiv논문2026. 06. 23. 14:32

Divergence-Point Preference Learning을 통한 멀티턴 도구 호출 에이전트의 자기 진화 (Self-Evolution)

요약

멀티턴 도구 사용 에이전트의 성능 향상을 위해 발산 지점 선호도 학습(Divergence-Point Preference Learning)을 제안합니다. ToolGraph와 DPO를 결합하여 도구 선택의 정확도를 높이고, 벤치마크 테스트에서 기존 대비 최대 16.8%의 성능 향상을 달성했습니다.

핵심 포인트

ToolGraph를 통한 스키마 유도 토폴로지 및 이력 인식 제어 결합
발산 지점(Divergence Points)을 식별하여 고품질 선호도 쌍 구축
DPO를 활용해 추론 시점과 동일한 컨텍스트 하에서 학습 수행
tau2-bench 테스트 결과, 베이스라인 대비 16.8% 성능 향상 확인

멀티턴 도구 사용 에이전트 (Multi-turn tool-using agents)는 대화 상태 (dialogue state)와 정책 제약 조건 (policy constraints)을 추적하는 동시에 장기적인 도구 시퀀스 (long-horizon tool sequences)를 조정해야 합니다. 기존 방식들은 추론 시점의 오케스트레이션 (orchestration)과 파라미터 수준의 학습 (parameter-level learning)을 분리하는 경우가 많아, 도구 선택이 구조적으로 취약하고 선호도 업데이트 (preference updates)가 훈련-배포 간의 프롬프트 불일치 (prompt mismatch)에 취약해지는 문제가 있습니다. 벤치마크 내에서의 자기 개선 (self-improvement)을 위해, ToolGraph는 스키마 유도 토폴로지 (schema-derived topology), 성공적인 롤아웃 (successful rollouts)에서 추정된 전이 가중치 (transition weights), 그리고 쓰기 전제 조건 (write prerequisites) 및 반복 검색 루프 (repeated-search loops)를 위한 이력 인식 제어 (history-aware controls)를 결합합니다. 그런 다음 상태 기반 매칭 (state-based matching) 및 접두사 기반 정렬 (prefix-based alignment)을 통해 발산 지점 (divergence points)을 찾아내어 161개의 선호도 쌍 (preference pairs)을 구축하고, 이를 행동 정확성 주석 (action-correctness annotations)으로 필터링한 뒤, 추론 시 사용되는 것과 동일한 ToolGraph 컨텍스트 하에서 DPO (Direct Preference Optimization)를 학습시킵니다. 375개의 tau2-bench 태스크에 걸쳐, ToolGraph는 가중 평균 보상 (weighted average reward)을 0.304에서 0.338로 (+상대적 11.2%) 높였으며, ToolGraph+DPO는 0.355 (+베이스라인 대비 16.8%)에 도달했습니다. DPO를 통한 이득은 항공 및 소매 분야에 집중되었습니다. 세밀한 진단 결과, 통신 (telecom) 궤적의 약 절반이 행동 실행 전에 단계 예산 (step budget)을 소진하며, 선택된 보상의 양수성 (reward positivity)이 평가된 16가지 DPO 구성 중 가장 유용한 체크포인트 신호임을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Divergence-Point Preference Learning을 통한 멀티턴 도구 호출 에이전트의 자기 진화 (Self-Evolution)

요약

핵심 포인트

댓글