자기 유도 결과 잠재력 (SIOP): 검증자 없는 에이전트의 턴 수준 크레딧 할당

장기 지평 LLM 에이전트는 중간 정보 수집 턴에 의존하지만, 훈련 피드백은 주로 최종 답변에서만 관찰되며, 프로세스 수준의 보상은 고품질 인간 주석이 필요하기 때문이다. 기존 턴 수준 형성 방법은 금표 답변의 확률을 높이는 턴을 보상하지만, 답변 감독이나 안정된 작업 특화 검증자를 요구한다. 반대로, 라벨 없는 RL 방법은 출력 분포에서 자기 신호를 추출하지만 주로 답변 또는 궤적 수준에서 이루어지므로 중간 턴에 크레딧을 할당할 수 없다. 우리는 최종 답변의 의미론적 클러스터를 잠재 미래 결과 상태로 간주하여 잠재 기반 턴 수준 크레딧 할당을 수행하는 자기 유도 결과 잠재력 (SIOP) 을 제안한다. 각 쿼리에 대해 SIOP 는 여러 롤아웃을 샘플링하고, 최종 답변을 의미론적 결과 모드로 클러스터링하며, 이러한 상태에 대한 신뢰도 인식을 고려한 목표 분포를 구축한다. 그런 다음, 신뢰할 수 있는 미래 상태를 위한 후속 확률을 증가시키는 턴을 보상하기 위해 단순화 가능한 클러스터 수준 근사를 사용한다. 이 목적은 금표 답변 감독에서 표준 GRPO 를 사용하는 롤아웃 수준의 장점을 발산하는 것을 피하면서 검증자 없는 작업 특화 설정으로 정보 잠재력 형성을 일반화한다. 우리는 프레임워크를 공식화하고, 감독 금표 답변 한계를 특성화하며, SIOP 가 7 개의 검색 증강 에이전트 추론 벤치마크에서 검증자 없는 결과 수준 베이스라인보다 평균 성능을 개선하고 금표 감독된 결과 베이스라인에 근접함을 보여준다. 코드는 https://github.com/dl-m9/SIOP.git 에서 이용 가능하다.

Insights

자기 유도 결과 잠재력 (SIOP): 검증자 없는 에이전트의 턴 수준 크레딧 할당

요약

핵심 포인트

댓글

현재 소유주 2곳, Penske Automotive의 비상장 전환 추진

오늘 GitHub을 점령한 프로젝트는 무엇일까요? 🔥

FLUX 모델의 오랜 업데이트 소식

인텔($INTC) 어닝 서프라이즈, 2분기 실적·3분기 가이던스 모두 예상 상회

오늘 GitHub을 점령한 프로젝트는 무엇일까요? 🔥

FLUX 모델의 오랜 업데이트 소식

인텔($INTC) 어닝 서프라이즈, 2분기 실적·3분기 가이던스 모두 예상 상회