맹목적으로 신뢰하지 마세요: 신뢰할 수 없는 피드백이 도구 사용 LLM 에이전트에 미치는 영향
요약
도구 증강 에이전트가 신뢰할 수 없는 피드백을 받았을 때 발생하는 성능 저하와 가치 역전 현상을 연구합니다. 잘못된 피드백이 에이전트의 성능을 피드백이 없는 상태보다 낮게 만들 수 있음을 실험을 통해 증명했습니다.
핵심 포인트
- 신뢰할 수 없는 피드백은 에이전트의 성능을 급격히 저하시킴
- 잘못된 피드백이 없을 때보다 성능이 낮아지는 가치 역전 현상 발견
- 에이전트 평가 시 '피드백 없음' 상태를 대조군으로 포함해야 함
- 잘못된 증거를 거부하는 능력은 대체 수단의 신뢰도에 의존함
도구 증강 에이전트(Tool-augmented agents)는 일반적으로 신뢰할 수 있는 외부 피드백 하에서의 이득을 통해 평가됩니다. 그러나 이러한 이득은 하나의 핵심적인 반사실적(counterfactual) 질문을 남깁니다. 즉, 피드백이 신뢰할 수 없을 때, 에이전트는 작업 증거를 받지 않는 편이 더 나았을까요? 우리는 에이전트 루프(loop), 프롬프트(prompt), 액션 공간(action space), 디코딩(decoding)은 고정하고 반환되는 관찰값(observation)만을 충실한(faithful), 오도하는(misleading), 또는 없는(absent) 상태로 변화시키는 통제된 매칭 루프 비교를 통해 이 문제를 연구합니다. 질의응답(question answering)과 사실 검증(fact verification) 전반에 걸쳐, 지속적인 오도 피드백은 가치 역전(value inversion) 현상을 일으킵니다. 즉, 깨끗한 도구로부터 이득을 얻는 에이전트가 매칭된 '피드백 없음(no-feedback)' 대체 수단(fallback)보다 성능이 더 낮아질 수 있습니다. HotpotQA에서 Qwen2.5-7B는 깨끗한 검색(clean retrieval) 시 44.8 F1을 달성하고 피드백이 없을 시 22.3 F1을 기록하지만, 섞인 검색(shuffled retrieval) 하에서는 4.7 F1으로 떨어집니다. 이러한 역전 현상은 더 강력한 깨끗한 검색과 국소적으로 그럴듯한 방해 요소(distractors) 하에서도 지속되지만, 이후의 깨끗한 증거가 궤적(trajectory)을 복구할 수 있을 때는 약화됩니다. 초기 궤적 신호는 많은 실패를 예측하지만, 단순한 복구는 여전히 대체 수단(fallback)의 한계에 머물러 있습니다. 즉, 잘못된 증거를 거부하는 것은 노출된 대체 수단이 신뢰할 수 있을 때만 도움이 됩니다. 이러한 결과는 깨끗한 도구의 이득이 도구의 가치를 과장할 수 있음을 보여주며, 도구 증강 에이전트를 평가하기 위해서는 매칭된 '피드백 없음' 대체 수단 통제(controls)가 반드시 필요함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기