arXiv논문2026. 06. 15. 11:38

도구가 결정할 때: LLM 에이전트는 Graph Neural Network 도구에 맹목적으로 의존하며, 강력한 백본일수록 더 많이 의존한다

요약

LLM 에이전트가 GNN 도구를 사용할 때 스스로 판단하기보다 도구의 결과에 맹목적으로 의존하는 'GNN 앵무새' 현상을 분석한 연구입니다. 모델의 역량이 커질수록 오히려 도구에 대한 의존도가 높아지며, 이는 에이전트의 자율적 추론 능력을 저해할 수 있음을 경고합니다.

핵심 포인트

LLM 에이전트는 GNN 도구의 출력을 비판 없이 수용하는 경향이 있음
모델의 파라미터 규모가 커질수록 도구 의존도가 상승하는 역설적 현상 발견
단순한 선택적 호출 설계만으로는 도구 의존 문제를 완전히 해결하기 어려움
에이전트 시스템 설계 시 도구에 대한 비판적 판단 능력을 명시적으로 고려해야 함

점점 더 많은 연구가 대규모 언어 모델 (LLM) 에이전트에게 Graph Neural Networks (GNNs)를 호출 가능한 도구로 장착하고 있으며, 이는 에이전트가 해당 도구를 언제, 얼마나 의존할지에 대해 판단력을 발휘한다고 가정합니다. 우리는 이를 직접 테스트합니다. 우리는 고정된 (frozen) GNN을 ReAct 스타일의 LLM 에이전트에게 명시적인 도구로 노출시키고, 텍스트 속성 그래프 (ogbn-arxiv, WikiCS로 재현됨) 상의 노드 분류 (node classification) 작업에서 에이전트가 도구를 사용하는지, 아니면 단순히 도구에 복종하는지를 측정합니다. 우리는 에이전트가 판단력을 발휘하지 않는다는 것을 발견했습니다. 에이전트의 예측은 원본 GNN과 97.699.2%의 확률로 일치하며 (5개 시드), 도구의 출력을 통째로 채택하고 자신의 추론을 건너뛰는 'GNN 앵무새 (GNN parrot)'로 전락합니다. 백본 역량 (Qwen2.5 0.5B-7B)을 조사한 결과, 이러한 의존성은 약한 모델에서 나타나는 현상이 아닙니다. 도구를 호출할 수 있는 모델들 사이에서, 역량이 커질수록 일치율도 상승합니다 (1.5B에서 7B 사이에서 0.60에서 0.98로 상승). 결정적으로, 의존의 비용은 역량이 커진다고 해서 줄어들지 않으며, 대안이 나타날수록 더 커집니다. 가용 가능한 행동에 대한 노드당 오라클 (per-node oracle)은 3B 모델에서 0.090.18, 7B 모델에서 0.12~0.22만큼 앵무새 모델보다 우수한 성능을 보이며, 높은 동질성 (homophily) 환경에서는 그 차이가 대략 두 배로 벌어집니다. 이는 앵무새 모델은 고정된 GNN에 묶여 있는 반면 에이전트의 대안적 능력은 향상되기 때문입니다. 7B 모델에서는 단순한 이웃 레이블 (neighbour-label) 도구가 높은 동질성에서 GNN을 앞지르지만 (0.81 대 0.71), 에이전트는 여전히 의존합니다. 단순한 선택적 호출 게이트 (selective-invocation gate)는 높은 동질성에서의 격차를 약 절반 정도 회복하지만 (0.71에서 0.83으로), 순전한 글로벌 이득은 창출하지 못합니다. 또한, 홀드아웃 추정치 (held-out estimates)에 따르면 표준 테스트 시간 특징 (test-time features)을 통한 최적의 게이트 성능은 오라클이 제공하는 여유분(headroom)의 최대 3분의 1 수준에 불과합니다. 즉, 신뢰할 수 있는 선택적 호출은 단순히 라우터 설계의 문제가 아니라 가용 정보의 한계에 의해 제한되는 것으로 보입니다. 우리의 결과는 주의 깊은 측정을 요구합니다. 에이전트+도구 시스템의 평가는 에이전트가 도구 위에 판단력을 더할 것이라고 가정해서는 안 되며, 선택적 호출은 규모(scale)로부터 자연스럽게 나타나기를 기대하기보다 설계 단계에서부터 포함되어야 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

도구가 결정할 때: LLM 에이전트는 Graph Neural Network 도구에 맹목적으로 의존하며, 강력한 백본일수록 더 많이 의존한다

요약

핵심 포인트

댓글