본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 07. 17:22

자기 유도 결과 잠재력 (SIOP): 검증자 없는 에이전트의 턴 수준 크레딧 할당

요약

본 논문은 장기 지평 LLM 에이전트가 중간 정보 수집 턴에서 효과적으로 보상을 받을 수 있도록 '자기 유도 결과 잠재력(Self-Induced Outcome Potential, SIOP)'이라는 새로운 방법을 제안합니다. 기존 방법들은 최종 답변에만 의존하거나 안정적인 검증자를 필요로 하는 한계가 있었습니다. SIOP는 최종 답변의 의미론적 클러스터를 미래 결과 상태로 간주하고, 이 상태들에 대한 신뢰도 인식을 바탕으로 턴 수준 크레딧을 할당하여, 검증자 없이도 정보 잠재력을 형성할 수 있게 합니다.

핵심 포인트

  • SIOP(Self-Induced Outcome Potential)는 장기 지평 LLM 에이전트의 중간 턴에 보상을 할당하는 새로운 프레임워크입니다.
  • 최종 답변을 의미론적 클러스터로 간주하여 잠재적인 미래 결과 상태를 정의합니다.
  • 신뢰도 인식을 기반으로 목표 분포를 구축하고, 이를 통해 검증자 없이 정보 잠재력을 형성할 수 있습니다.
  • SIOP는 기존의 롤아웃 수준 장점과 금표 답변 감독의 한계를 모두 극복하며 높은 성능을 입증했습니다.

장기 지평 LLM 에이전트는 중간 정보 수집 턴에 의존하지만, 훈련 피드백은 주로 최종 답변에서만 관찰되며, 프로세스 수준의 보상은 고품질 인간 주석이 필요하기 때문이다. 기존 턴 수준 형성 방법은 금표 답변의 확률을 높이는 턴을 보상하지만, 답변 감독이나 안정된 작업 특화 검증자를 요구한다. 반대로, 라벨 없는 RL 방법은 출력 분포에서 자기 신호를 추출하지만 주로 답변 또는 궤적 수준에서 이루어지므로 중간 턴에 크레딧을 할당할 수 없다. 우리는 최종 답변의 의미론적 클러스터를 잠재 미래 결과 상태로 간주하여 잠재 기반 턴 수준 크레딧 할당을 수행하는 자기 유도 결과 잠재력 (SIOP) 을 제안한다. 각 쿼리에 대해 SIOP 는 여러 롤아웃을 샘플링하고, 최종 답변을 의미론적 결과 모드로 클러스터링하며, 이러한 상태에 대한 신뢰도 인식을 고려한 목표 분포를 구축한다. 그런 다음, 신뢰할 수 있는 미래 상태를 위한 후속 확률을 증가시키는 턴을 보상하기 위해 단순화 가능한 클러스터 수준 근사를 사용한다. 이 목적은 금표 답변 감독에서 표준 GRPO 를 사용하는 롤아웃 수준의 장점을 발산하는 것을 피하면서 검증자 없는 작업 특화 설정으로 정보 잠재력 형성을 일반화한다. 우리는 프레임워크를 공식화하고, 감독 금표 답변 한계를 특성화하며, SIOP 가 7 개의 검색 증강 에이전트 추론 벤치마크에서 검증자 없는 결과 수준 베이스라인보다 평균 성능을 개선하고 금표 감독된 결과 베이스라인에 근접함을 보여준다. 코드는 https://github.com/dl-m9/SIOP.git 에서 이용 가능하다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0