본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 29. 10:48

SAAS: 에이전트 검색에서의 과잉 검색 완화를 위한 자기 인식 강화학습 (Self-Aware Reinforcement Learning)

요약

에이전트 검색 시 발생하는 과잉 검색 문제를 해결하기 위해 자기 인식 강화학습(SAAS) 프레임워크를 제안합니다. 이 모델은 검색 경계를 식별하고 보상 모듈을 통해 불필요한 검색을 억제하여 추론 지연과 비용을 줄입니다.

핵심 포인트

  • 에이전트의 지식 경계 미인식으로 인한 과잉 검색 문제 해결
  • 검색 경계 모델링을 통한 정밀한 검색 동작 조절
  • 경계 인식 보상 모듈로 불필요한 중복 검색 억제
  • 정확도를 유지하면서 추론 지연 시간 및 계산 비용 감소

에이전트 검색 (Agentic search)은 LLM (Large Language Models)이 반복적인 추론과 외부 검색을 통해 복잡한 멀티홉 (multi-hop) 질문을 해결할 수 있도록 합니다. 이러한 효과성에도 불구하고, 실제 적용 시 이러한 시스템들은 종종 심각한 한계에 직면합니다. 즉, 에이전트가 자신의 지식 경계를 인식하지 못하여, 내부 지식만으로 충분한 상황에서도 맹목적으로 검색을 실행하거나, 충분한 증거가 수집되었음에도 검색을 종료하지 못하는 것입니다. 이러한 자기 인식 (self-awareness)의 부족은 심각한 extbf{과잉 검색 (over-search)}으로 이어져, 상당한 추론 지연 시간 (inference latency)과 과도한 계산 비용을 발생시킵니다. 이를 해결하기 위해, 우리는 정확도를 저해하지 않으면서 검색 동작을 정밀하게 조절하는 동적 자기 인식을 배양하도록 설계된 새로운 RL (Reinforcement Learning, 강화학습) 프레임워크인 SAAS를 제안합니다. SAAS는 세 가지 핵심 구성 요소를 도입합니다: (i) 검색 비활성화 (search-disabled) 및 검색 활성화 (search-enabled) 롤아웃 (rollouts)을 대조하여 진화하는 정책 하에서의 검색 경계를 식별하는 검색 경계 모델링 메커니즘; (ii) 이러한 경계 인식을 궤적 수준 (trajectory-level)의 페널티로 변환하여 불필요하고 중복된 검색을 억제하는 경계 인식 보상 모듈 (boundary-aware reward module); (iii) 보상 해킹 (reward hacking)을 방지하기 위해 검색 정규화보다 추론을 우선시하도록 순차적 커리큘럼을 활용하는 단계별 최적화 전략 (stage-wise optimization strategy). 광범위한 실험을 통해 SAAS가 정확도를 유지하면서도 과잉 검색을 실질적으로 감소시킨다는 것을 입증했습니다. 우리의 코드는 https://github.com/XMUDeepLIT/SAAS 에서 익명으로 공개되었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0