본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 13. 11:31

DeepRefine: 강화학습 (RL)을 통한 에이전트 컴파일 지식 정제

요약

본 기술 기사는 대규모 언어 모델(LLM) 에이전트가 생성하는 외부 지식의 품질 문제를 다룹니다. 특히, 이 지식이 불완전성, 부정확성, 중복성 등의 결함으로 인해 검색 충실도와 다운스트림 태스크 성능을 저하시키는 문제를 지적합니다. 이를 해결하기 위해 'DeepRefine'이라는 일반적인 LLM 기반 추론 모델을 제안하여 에이전트가 컴파일한 지식을 정제하는 방법을 제시합니다.

핵심 포인트

  • LLM 에이전트의 외부 지식은 불완전성, 부정확성, 중복성 등의 결함으로 인해 품질 문제가 발생한다.
  • 지식 기반의 결함(누락된 증거, 낮은 신뢰도 주장 등)은 검색 충실도와 다운스트림 태스크 성능을 저하시킨다.
  • DeepRefine은 에이전트가 컴파일한 지식을 정제하기 위해 제안된 일반적인 LLM 기반 추론 모델이다.

에이전트가 컴파일한 지식 기반은 개방형의, 지식 집약적인 다운스트림 태스크에서 대규모 언어 모델 (LLM) 에이전트에게 지속적인 외부 지식을 제공합니다. 하지만 그 품질은 extit{불완전성 (incompleteness)}, extit{잘못됨 (incorrectness)}, 그리고 extit{중복성 (redundancy)}에 의해 체계적으로 제한됩니다. 이는 누락된 증거 또는 문서 간 링크, 낮은 신뢰도 또는 부정확한 주장, 모호하거나 핵심 참조 해결 문제로 나타납니다. 이러한 결함은 반복적인 사용 과정에서 복합적으로 작용하여 검색 충실도(retrieval fidelity)와 다운스트림 태스크 성능을 저하시킵니다. 본 논문에서는 extit{에이전트 컴파일 지식 정제}를 위한 일반적인 LLM 기반 추론 모델인 DeepRefine을 제시합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0