arXiv논문2026. 06. 17. 11:36

오프라인 선호도 기반 궤적 평가 (Offline Preference-Based Trajectory Evaluation)

요약

에이전트 시스템의 오프라인 평가 시 발생하는 정보 손실과 동점 문제를 해결하기 위해 시간적 선호도를 활용한 궤적 평가 방식을 제안합니다. 실험 결과, 기존 성공 기반 지표보다 동점 발생률을 낮추어 변별력과 데이터 효율성을 크게 향상시켰습니다.

핵심 포인트

기존 성공 기반 지표의 높은 동점 발생 문제 지적
진행 상황 및 복귀 시간을 고려한 선호도 기반 평가 제안
동점 발생률을 75%에서 35%로 대폭 감소
변별력, 순위 안정성 및 데이터 효율성 개선 확인
벤치마크 포화 현상이 평가 척도 문제일 수 있음을 시사

에이전트 시스템 (agentic systems)의 오프라인 평가 (Offline evaluation)는 종종 궤적 (trajectories)을 최종 성공 여부로 축소하여, 부분적인 진행 상황에 대한 정보를 폐기하고 광범위한 동점 (ties)을 유발합니다. 이는 유효 샘플 크기를 줄이고 시스템을 구별하는 능력을 약화시켜 상당한 통계적 비효율성 (statistical inefficiency)을 초래합니다. 우리는 진행 상황 (progress)과 복귀 시간 프로필 (time-to-return profiles)에 대한 시간적 선호도 (temporal preferences)를 통해 궤적을 직접 비교하는 선호도 기반 궤적 평가 (preference-based trajectory evaluation)를 제안합니다. 다양한 에이전트 및 상호작용 벤치마크 (benchmarks)를 통해 조사한 결과, 표준 성공 기반 지표 (standard success-based metrics)는 사례의 약 75%에서 동점 비교를 생성하는 반면, 궤적 인식 선호도 (trajectory-aware preferences)는 동점을 약 35%로 줄여 변별력 (discriminative power), 순위 안정성 (ranking stability), 그리고 데이터 효율성 (data efficiency)을 향상시킵니다. 우리의 결과는 종종 데이터 수집의 미흡함이나 문제의 난이도 때문이라고 여겨졌던 벤치마크 포화 (benchmark saturation) 현상이 평가 척도 (evaluation measure)의 선택에 의해서도 설명될 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

오프라인 선호도 기반 궤적 평가 (Offline Preference-Based Trajectory Evaluation)

요약

핵심 포인트

댓글