arXiv논문2026. 06. 30. 12:40

KbSD: 에이전트 검색의 행동 교정을 위한 지식 경계 인식 자기 증류 (Knowledge Boundary aware

요약

에이전트 검색 시 발생하는 보상 희소성 문제를 해결하기 위해 지식 경계 인식 자기 증류(KbSD) 프레임워크를 제안합니다. 토큰 수준의 밀집 감독과 사분면 적응형 최적화를 통해 모델이 파라미터 메모리와 검색 결과 사이에서 최적의 결정을 내리도록 돕습니다.

핵심 포인트

보상 희소성 문제를 해결하는 KbSD 프레임워크 제안
힌트 증강 교사 모델을 통한 정보 비대칭적 자기 증류 방식 도입
사분면 적응형 증류 목적 함수로 이질적인 추론 분포 최적화
작업 정확도 향상 및 환각 현상(Hallucination) 완화 효과 입증

에이전트 검색 (Agentic search)은 대규모 언어 모델 (LLM)에 동적인 검색 능력을 부여하지만, 기존의 강화학습 (RL) 방법들은 지식 경계 교정 (knowledge boundary calibration) 시 발생하는 보상 희소성 (reward sparsity) 문제로 인해 여전히 한계가 있습니다. 즉, 언제 파라미터 메모리 (parametric memory)를 신뢰할지, 언제 검색된 증거 (retrieved evidence)에 의존할지, 그리고 언제 답변을 유보 (abstain)할지를 결정하는 과정에서의 문제입니다. 이진 보상 (Binary rewards)은 바람직하지 않은 결과에 대해 벌점을 줄 수는 있지만, 다양한 지식 상태에 걸쳐 교정된 결정을 내리는 데 필요한 추론 과정에 대해서는 거의 가이드를 제공하지 못합니다.

이를 해결하기 위해, 우리는 밀집된 토큰 수준의 감독 (dense token-level supervision), 결과 수준의 희소 보상 (outcome-level sparse rewards), 그리고 사분면 적응형 최적화 (quadrant-adaptive optimization)를 통해 이러한 한계를 해결하는 프레임워크인 KbSD (Knowledge boundary Self-Distillation)를 제안합니다. KbSD는 학생 모델 (student)과 구조적으로 동일하면서, 파라미터 확실성 (parametric certainty), 검색 품질 (retrieval quality), 정답 (ground-truth answers)을 포함한 명시적인 지식 경계 신호를 전달받는 힌트 증강 교사 모델 (hint-augmented teacher)을 구축하여 교정된 추론 데모 (reasoning demonstrations)를 생성합니다. 이러한 정보 비대칭적 자기 증류 (information-asymmetric self-distillation)는 더 큰 외부 모델을 필요로 하지 않으면서도 밀집된 감독을 가능하게 합니다.

지식 상태에 따른 이질적인 추론 분포를 추가로 고려하기 위해, 우리는 사분면 적응형 증류 목적 함수 (quadrant-adaptive distillation objective)를 도입합니다: 집중된 통합을 위한 역방향 KL (reverse KL), 다양한 거부를 위한 순방향 KL (forward KL), 그리고 정밀도와 커버리지가 모두 필요한 비대칭 사분면을 위한 파레토 최적 양방향 KL (Pareto-optimal bidirectional KL)이 그것입니다. 여러 벤치마크에서의 실험 결과, KbSD는 강력한 베이스라인 모델들에 비해 작업 정확도와 환각 완화 (hallucination mitigation)를 모두 일관되게 향상시키며, 특히 희소 보상이 가장 정보력이 낮은 도전적인 사분면에서 가장 큰 이득을 보였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

KbSD: 에이전트 검색의 행동 교정을 위한 지식 경계 인식 자기 증류 (Knowledge Boundary aware

요약

핵심 포인트

댓글