거부할 것인가 호출할 것인가: LLM 도구 호출 평가 및 최적화 프레임워크
요약
본 기사는 LLM 기반 에이전트가 외부 도구를 호출할지 말지를 결정하는 과정을 평가하고 최적화하기 위한 프레임워크를 제시합니다. 효과적인 도구 사용은 단순히 도구를 사용하는 것을 넘어, 필요성(Necessity), 유용성(Usefulness), 그리고 비용 효율성(Cost-effectiveness)이라는 세 가지 핵심 요소를 기준으로 호출 여부를 판단하는 데 달려 있습니다. 연구진은 규범적 관점과 기술적 관점을 결합한 프레임워크를 통해 모델의 도구 사용 결정 품질을 개선하고, 숨겨진 상태 기반의 경량 추정기를 훈련시켜 성능 향상을 입증했습니다.
핵심 포인트
- LLM 에이전트의 핵심 과제는 외부 도구를 호출할지 말지를 정확하게 판단하는 의사결정 능력입니다.
- 도구 사용 결정 평가는 필요성(Necessity), 유용성(Usefulness), 비용 효율성(Cost-effectiveness) 세 가지 요소를 기준으로 이루어져야 합니다.
- 연구에서 제시된 프레임워크는 규범적 관점(진정한 필요성/유용성 추론)과 기술적 관점(관찰된 행동 기반 추론)을 결합합니다.
- 모델의 자기 인식된 도구 사용 결정이 항상 최적이 아니므로, 숨겨진 상태(hidden states)를 활용한 경량 추정기를 훈련하여 성능을 개선할 수 있습니다.
에이전티 AI(도구 기반) 아키텍처는 외부 도구를 추가하여 LLM의 강력한 능력을 개방합니다. 그러나 도구 사용은 항상 유익한 것은 아닙니다; 일부 호출은 불필요하거나 심지어 해로울 수 있습니다. 따라서 효과적인 도구 사용은 핵심 LLM 결정, 즉 작업을 수행할 때 도구를 호출할 것인가를 호출하지 않을 것인가에 달려있습니다. 이 결정은 특히 웹 검색 도구에서 더 어려우며, 외부 정보의 혜택은 모델의 내부 지식과 잠재적으로 노이즈가 있는 도구 응답을 통합하는 능력에 의존합니다. 우리는 의사결정 이론에 영감을 받은 원칙적인 프레임워크를 소개하여 세 가지 핵심 요소인 필요성, 유용성, 그리고 비용 효율성을 기준으로 웹 검색 도구 사용 결정을 평가합니다. 우리의 분석은 두 개의 보완적인 렌즈를 결합합니다: 최적의 도구 호출 할당에서 진정한 필요성과 유용성을 추론하는 규범적 관점과 관찰된 행동에서 모델의 자기 인식된 필요성과 유용성을 추론하는 기술적 관점. 우리는 모델의 도구 호출에 대한 인식된 필요성과 유용성이 종종 그들의 진정한 필요성과 유용성과 불일치함을 발견합니다. 이 프레임워크를 바탕으로, 모델의 숨겨진 상태 (hidden states) 에 기반한 필요성과 유용성의 경량 추정기를 훈련시킵니다. 우리의 추정기는 세 가지 작업과 여섯 개의 모델을 통해 자기 인식된 설정보다 결정 품질을 개선하고 더 강력한 작업 성능을 이끌어냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기