arXiv논문2026. 05. 22. 11:19

우선순위 순위 매기기(Priority Ranking)를 통한 하네스 최적화 도구(Harness Optimizers)의 직접 평가를 향하여

요약

하네스 최적화 도구의 성능을 간접적인 결과가 아닌 단계별 행동으로 직접 평가하기 위한 '우선순위 순위 매기기(Priority Ranking)' 방법론을 제안합니다. 이 방식은 비용 효율적으로 최적화 도구의 능력을 정량화하며, 실제 에이전트 개선 능력과 높은 상관관계를 보입니다.

핵심 포인트

기존의 간접적인 최종 개선 평가 방식의 한계 지적
우선순위 순위 매기기를 통한 저비용 직접 평가 설계
최적화 도구의 순위 매기기 성능과 실제 개선 능력 간 상관관계 입증
Shor 데이터셋을 활용한 182개의 인간 검증 시나리오 제공

하네스 최적화(Harness optimization)는 최적화 에이전트(optimizer agent)가 대상 에이전트(target agents)의 하네스(harness)를 반복적으로 업데이트함으로써 자동화된 에이전트 생성을 가능하게 합니다. 이러한 성공에도 불구하고, 현재의 연구들은 대상 에이전트의 성능 향상을 관찰함으로써만 최적화 도구를 평가합니다. 이러한 간접적인 최종 개선(end-improvement) 평가 방식은 중간 단계에서의 최적화 도구의 행동을 간과하며, 이러한 행동은 종종 오류를 범하여 에이전트의 성능을 저해하기도 합니다. 따라서 하네스 최적화가 최적화 도구의 정보에 기반한 업데이트 행동에 의해 주도되는 것인지, 아니면 단순히 시행착오(trial-and-error)에 의한 것인지가 불분명합니다. 이는 하네스 최적화 도구에 대한 직접적인 평가를 필요로 합니다. 그러나 오라클 하네스(oracle harnesses)의 부재로 인해 하네스 최적화 도구를 직접 평가하는 것은 쉽지 않고 비용이 많이 듭니다. 이를 해결하기 위해, 우리는 이들을 직접 평가할 수 있는 간단하고 저비용인 설계 방식인 우선순위 순위 매기기(priority ranking)를 제시합니다. 하네스 최적화 도구에게 주어진 하네스 내의 구성 요소(예: 도구(tools))가 업데이트되었을 때 에이전트의 성능을 향상시키거나 저해할 잠재력을 기준으로 순위를 매기도록 요청함으로써, 우리의 설계는 비용이 많이 드는 롤아웃(rollouts)이나 수동 검사 없이도 단계 수준(step level)에서 최적화 도구의 능력을 정량화합니다. 더 중요한 것은, 최적화 도구의 순위 매기기 성능이 실제 다단계 하네스 최적화에서 에이전트를 개선하는 능력과 상관관계가 있다는 점이며, 이를 통해 우선순위 순위 매기기를 최적화 능력의 신뢰할 수 있는 예측 지표로 확립합니다. 우선순위 순위 매기기는 다양한 도메인, 설계 및 시간 단계를 아우르는 182개의 인간 검증 최적화 시나리오 모음인 Shor에 의해 가능해집니다. 코드와 데이터는 https://github.com/k59118/Harness_Optimizer_Evaluation 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

우선순위 순위 매기기(Priority Ranking)를 통한 하네스 최적화 도구(Harness Optimizers)의 직접 평가를 향하여

요약

핵심 포인트

댓글